Hardware
APEI 通用硬體錯誤
在過去的一周裡,我的伺服器(執行 Debian Jessie)重啟了兩次。在系統日誌中,我在每次重新啟動之前都會看到這一點,並且在其他任何時候都沒有:
Aug 15 13:32:58 hoshimiya kernel: [296512.005355] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1 Aug 15 13:32:58 hoshimiya kernel: [296512.005360] {1}[Hardware Error]: It has been corrected by h/w and requires no further action Aug 15 13:32:58 hoshimiya kernel: [296512.005361] {1}[Hardware Error]: event severity: corrected Aug 15 13:32:58 hoshimiya kernel: [296512.005362] {1}[Hardware Error]: Error 0, type: corrected Aug 15 13:32:58 hoshimiya kernel: [296512.005363] {1}[Hardware Error]: fru_text: CorrectedErr Aug 15 13:32:58 hoshimiya kernel: [296512.005364] {1}[Hardware Error]: section_type: memory error Aug 15 13:32:58 hoshimiya kernel: [296512.005365] [Firmware Warn]: error section length is too small
一些Google搜尋讓我相信這與我的 ECC RAM 檢測和從錯誤中恢復有關。它是否正確?如果它正在恢復,為什麼系統會重新啟動?如果可能的話,我想阻止系統重新啟動。
看起來您的 RAM 出現故障,或者有正在糾正的錯誤。根據嚴重程度,聽起來這些錯誤正在影響它的功能,並且之後必須重新啟動。
從這個執行緒的外觀來看,最後關於錯誤部分長度太小的消息位可能是罪魁禍首。
摘錄——$$ PATCH 1/1 $$efi: cper: 支持不同長度的錯誤段
某些欄位可能會添加到較新 UEFI 規範中的錯誤部分。例如,“Reserved”、“Rank Number”、“Card Handle”和“Module Handle”欄位被添加到從 UEFI 規範 2.3 開始的記憶體錯誤部分。不幸的是,如果檢測到記憶體更正錯誤並且 struct acpi_generic_data 中的“revision”欄位小於 0x203(UEFI 規範 2.3),則會出現以下警告消息:
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 3 {1}[Hardware Error]: It has been corrected by h/w and requires no further action {1}[Hardware Error]: event severity: corrected {1}[Hardware Error]: Error 0, type: corrected {1}[Hardware Error]: section_type: memory error [Firmware Warn]: error section length is too small
此行為導致無法正確顯示此更正錯誤。為了解決這個問題,這個更新檔支持不同 UEFI 規範版本的不同長度的錯誤部分。
並且,此更新檔採用預定義的結構來清理函式 cper_estatus_print_section 中的重複程式碼。
應用此更新檔後,記憶體更正的錯誤可以在註入錯誤後正確顯示。
使用 Grantley 平台和英特爾 RAStool 在 v3.14-rc5 上進行測試。
因此,針對該特定錯誤的更新檔似乎正在開發中,並且可能在較新版本的核心中可用。