Debian

來自 APEI 通用硬體錯誤源 (ECC RAM) 的硬體錯誤

  • March 17, 2022
[58306.633900] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
[58306.633905] {1}[Hardware Error]: It has been corrected by h/w and requires no further action
[58306.633907] {1}[Hardware Error]: event severity: corrected
[58306.633909] {1}[Hardware Error]:  Error 0, type: corrected
[58306.633911] {1}[Hardware Error]:  fru_text: CorrectedErr
[58306.633912] {1}[Hardware Error]:   section_type: memory error
[58306.633914] {1}[Hardware Error]:   node: 0 device: 44696
[58306.633916] {1}[Hardware Error]:   error_type: 2, single-bit ECC

這已經出現在我的帶有ECC RAM的 Debian Xeon 伺服器上,這是否意味著 RAM 模組正在死亡或其他類似由 SW 引起的錯誤?我看到其他一些文章聲稱他的作業系統重新啟動,而我的沒有,這就是我問的原因。謝謝你。

ECC 記憶體錯誤始終是硬體錯誤,而不是軟體錯誤。這並不意味著它們表明硬體出現故障,它們可能是由隨機位翻轉引起的。(Google 2009 年關於該主題的論文提供了有趣的見解;它的引用可能會提供更近期的分析。)

硬體位翻轉可以由軟體觸發,例如 在 Rowhammer 攻擊中。

除非 ECC 錯誤變得頻繁,或者您開始看到無法糾正的 ECC 錯誤,否則我不會擔心。

引用自:https://unix.stackexchange.com/questions/694763