如何調查總掛起的原因?
我的 Arch 機器有時會掛起,突然對滑鼠或鍵盤沒有任何響應。游標被凍結。Ctrl-Alt-Backsp 不會停止 X11,而 ctrl-alt-del 什麼也不做。conky 和 icewm 中的 cpu、網路和磁碟活動圖停止更新。幾分鐘後,風扇打開。讓電腦做任何事情的唯一方法就是關閉電源。
當它啟動時,CPU 溫度監視器顯示 70 到 80C。在掛起之前,我通常在 50 攝氏度左右進行低強度活動,例如網上沖浪。
與正常關機相比,日誌顯示沒有什麼特別之處。記憶體檢查器執行良好,缺陷為零。
我如何調查它為什麼掛斷?是否有額外的資訊可以找到線索?有沒有什麼比斷電更激烈的事情來獲得某種行動,如果只是一些有限的外殼或只是嗶嗶聲,但可能會提供線索?
這台機器是一台 Gateway P6860 17" 筆記型電腦(體積龐大但功能強大),它執行最新的 Arch 64 位(截至 2011 年 3 月)。我有 Arch 很長一段時間沒有這個問題,切換到 Ubuntu 大約一周然後退回到全新安裝的 Arch。這就是掛起開始的時候。
更新:是的,肯定是過熱了。在某一溫度下,滑鼠和鍵盤會停止工作,有時會在冷卻幾分鐘後才能正常工作。在更高的溫度下,會發生更糟糕的事情,例如完全無響應,包括忽略 SysRq。這種情況之後不久就會突然斷電。我通過購買一台新電腦 8D 解決了這個問題
如果核心仍在執行而不是真正掛起,弗雷德里克的回答涉及魔術 SysRq 和核心轉儲將起作用。由於某種原因,核心可能只是忙於循環。
它不響應 Ctrl-Alt-Del 的事實告訴我,情況可能並非如此,並且機器正在硬鎖定。這意味著硬體故障或與之密切相關的東西,比如壞驅動程序。
如果您讓它執行足夠長的時間,您的記憶體檢查測試就很好。您還應該嘗試其他方法來嘗試對系統施加壓力,例如StressLinux。長期執行的基準測試也很好。
要嘗試的另一件事是使用 Ubuntu live CD 啟動系統並嘗試正常使用系統。如果像這樣暫時返回 Ubuntu 並不會導致問題再次發生,那麼很有可能它實際上並不是硬體損壞,而是相關的事情之一,例如錯誤的驅動程序或錯誤配置的核心。很可能像 Ubuntu 這樣更受歡迎的發行版可能比 Arch 這樣的發行版擁有更穩定的核心配置,這僅僅是因為在發行版的測試階段試用了更多的機器。
關於凍結,有幾個選項:
- 如果您的盒子有一個串列埠,則可以通過添加
console=ttyS0
到引導選項來獲取轉儲,如此處所述。您需要第二台帶有串列埠和空調製解調器電纜的機器來擷取轉儲文件。- 使用 netconsole 通過網路獲取轉儲,請參見此處。
- 以這種方式使用 kexec/kdump 可以獲得本地轉儲,請參見此處。
關於清潔電源關閉問題,我建議您使用神奇的 SysRq 鍵來“同步”光碟,“U”安裝它們,然後重新“B”啟動盒子(字母是您應該與 alt 一起鍵入的字母-sysrq。
編輯:如果您將 oops/trace 發佈到 lkml,您應該使用最新(最好是最新)版本的核心並且沒有專有模組。