Hardware
如何檢查硬體故障?
我最近看到一些令人擔憂的消息
dmesg
。特別是一堆:
[ 19.367114] pcieport 0000:00:1c.5: PCIe Bus Error: severity=Corrected, type=Physical Layer, (Receiver ID) [ 19.367148] pcieport 0000:00:1c.5: device [8086:9d15] error status/mask=00000081/00002000 [ 19.367172] pcieport 0000:00:1c.5: [ 0] Receiver Error (First) [ 19.367192] pcieport 0000:00:1c.5: [ 7] Bad DLLP
和:
[ 20.121489] ath10k_pci 0000:03:00.0: Unknown eventid: 118809 [ 20.124485] ath10k_pci 0000:03:00.0: Unknown eventid: 90118
或者:
[ 19.367213] pcieport 0000:00:1c.5: AER: Multiple Corrected error received: 0000:00:1c.5 [ 19.367218] pcieport 0000:00:1c.5: can't find device of ID00e5
最令人擔憂的是:
Nov 06 19:03:16 3c86-notebook kernel: ath10k_pci 0000:03:00.0: firmware crashed! (guid a62c787e-4709-4d94-a1a7-4e9357c2555a) Nov 06 19:03:16 3c86-notebook kernel: ath10k_pci 0000:03:00.0: failed to get memcpy hi address for firmware address 4: -16 Nov 06 19:03:16 3c86-notebook kernel: ath10k_pci 0000:03:00.0: failed to read firmware dump area: -16
(這大約在啟動時發生 50% 的時間)
所有這些都在相當短的時間內(約 2 週)開始出現並且由於所有這些都可能是由硬體故障引起的,我最擔心的是,是否有軟體方法來測試所有或大部分硬體?
(除了韌體崩潰導致wifi停止工作之外,我沒有看到之前的錯誤有任何影響)
確認其硬體的最實用方法是啟動已知良好的軟體。例如,舊核心。舊韌體也會很好——你知道的 Live CD/DVD 會很棒。
另外,檢查你的日誌——你確定它是在 2 週前才開始的嗎?還是你那時才開始注意到它?
此外,至少如果這是一台台式電腦(相對容易打開和查看),請花點時間對硬體進行目視檢查:所有風扇都在旋轉嗎?是否缺少任何散熱片(散熱片是否沒有灰塵/棉絨)?有沒有鼓包的電容?由於存在大量 PCIe 錯誤,如果您對硬體感到滿意,您還可以重新安裝所有 PCIe 卡。
$$ Actual test equipment to prove the existence of a hardware fault would likely cost substantially more than just replacing the computer. $$