Hardware

APEI 通用硬體錯誤

  • February 8, 2019

在過去的一周裡,我的伺服器(執行 Debian Jessie)重啟了兩次。在系統日誌中,我在每次重新啟動之前都會看到這一點,並且在其他任何時候都沒有:

Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]:  Error 0, type: corrected
Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]:  fru_text: CorrectedErr
Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]:   section_type: memory error
Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small

一些Google搜尋讓我相信這與我的 ECC RAM 檢測和從錯誤中恢復有關。它是否正確?如果它正在恢復,為什麼系統會重新啟動?如果可能的話,我想阻止系統重新啟動。

看起來您的 RAM 出現故障,或者有正在糾正的錯誤。根據嚴重程度,聽起來這些錯誤正在影響它的功能,並且之後必須重新啟動。

從這個執行緒的外觀來看,最後關於錯誤部分長度太小的消息位可能是罪魁禍首。

摘錄——$$ PATCH 1/1 $$efi: cper: 支持不同長度的錯誤段

某些欄位可能會添加到較新 UEFI 規範中的錯誤部分。例如,“Reserved”、“Rank Number”、“Card Handle”和“Module Handle”欄位被添加到從 UEFI 規範 2.3 開始的記憶體錯誤部分。不幸的是,如果檢測到記憶體更正錯誤並且 struct acpi_generic_data 中的“revision”欄位小於 0x203(UEFI 規範 2.3),則會出現以下警告消息:

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

此行為導致無法正確顯示此更正錯誤。為了解決這個問題,這個更新檔支持不同 UEFI 規範版本的不同長度的錯誤部分。

並且,此更新檔採用預定義的結構來清理函式 cper_estatus_print_section 中的重複程式碼。

應用此更新檔後,記憶體更正的錯誤可以在註入錯誤後正確顯示。

使用 Grantley 平台和英特爾 RAStool 在 v3.14-rc5 上進行測試。

因此,針對該特定錯誤的更新檔似乎正在開發中,並且可能在較新版本的核心中可用。

引用自:https://unix.stackexchange.com/questions/150451