Debian
來自 APEI 通用硬體錯誤源 (ECC RAM) 的硬體錯誤
[58306.633900] {1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1 [58306.633905] {1}[Hardware Error]: It has been corrected by h/w and requires no further action [58306.633907] {1}[Hardware Error]: event severity: corrected [58306.633909] {1}[Hardware Error]: Error 0, type: corrected [58306.633911] {1}[Hardware Error]: fru_text: CorrectedErr [58306.633912] {1}[Hardware Error]: section_type: memory error [58306.633914] {1}[Hardware Error]: node: 0 device: 44696 [58306.633916] {1}[Hardware Error]: error_type: 2, single-bit ECC
這已經出現在我的帶有ECC RAM的 Debian Xeon 伺服器上,這是否意味著 RAM 模組正在死亡或其他類似由 SW 引起的錯誤?我看到其他一些文章聲稱他的作業系統重新啟動,而我的沒有,這就是我問的原因。謝謝你。
ECC 記憶體錯誤始終是硬體錯誤,而不是軟體錯誤。這並不意味著它們表明硬體出現故障,它們可能是由隨機位翻轉引起的。(Google 2009 年關於該主題的論文提供了有趣的見解;它的引用可能會提供更近期的分析。)
硬體位翻轉可以由軟體觸發,例如 在 Rowhammer 攻擊中。
除非 ECC 錯誤變得頻繁,或者您開始看到無法糾正的 ECC 錯誤,否則我不會擔心。