Linux
自動memtest然後開機
有沒有辦法重新啟動伺服器,所以它執行 memtest(比如 1 或 2 次通過)然後重新啟動回 Linux 並將報告寫入某個日誌?
Windows Server 2012 中的此功能幫助我多次診斷遠端伺服器上的壞 RAM,但我無法通過Google搜尋任何方法來為 Linux 伺服器這樣做。
Linux 可以做得更好——有一個核心命令行選項可以測試整個記憶體作為引導序列的一部分並鎖定壞塊——這必然會在你的引導序列中增加幾分鐘的時間,此時盒子似乎沒有響應。(memtest=n 標誌 - 參見https://www.kernel.org/doc/Documentation/admin-guide/kernel-parameters.txt)
一旦你知道壞塊在哪裡,你就可以告訴 linux 使用 badram= 標誌來避免它們。
還有一個線上記憶體測試測試儀(man memtester),您也可以直接進入您的 IPMI(它應該在任何半體面的伺服器上標記任何 badram - 在我的英特爾伺服器上,任何 ipmi 發現的 ECC 錯誤都已寫入 syslog)