Linux

新的linux系統故障排除老是卡死

  • February 4, 2016

我剛剛建構了一台新電腦並安裝了 centos7(基於 RHEL),我還嘗試了 mint 17.3(基於 Ubuntu)。安裝沒有任何問題。作業系統執行平穩,一切都在幾個小時內快速執行,然後鎖定。我可以通過打開多個 firefox、chrome、timeshift、vmware 工作站、磁碟實用程序等實例來複製問題,並不斷切換我的 3D 桌面並最終凍結。我什至無法從另一台電腦 ssh 進入它。如果我不嘗試複製該問題,我可以執行 firefox 和 2 或 3 個選項卡,並且在使用數小時後它會凍結。

在這台機器上,我總是在終端中執行 top 命令。最近一次凍結,前 4 個應用程序的 CPU 百分比分別為 52、37、21 和 10%,它們的記憶體使用率分別為 2.0、0.8、0.8 和 0.4%。每次崩潰時,頂級應用程序都不同,但使用情況大致相同。在環境溫度為 21-23 C 的房間中,CPU 溫度在 42-47 C 之間(AMD 表示溫度很好)。沒有什麼極端的。

當它凍結時,系統不會響應 Ctrl+Alt+F1、Ctrl+Alt+Backspace 或 Ctrl+Alt+Del。它也不能通過網路上的另一台電腦的 ssh 獲得……凍結時甚至不會出現在網路上。我硬重啟才能重新進入。

我嘗試過:

重新安裝不同版本的 Linux

重置主機板(具有目前的 bios 版本)

用 memtest86

測試 RAM 測試和交換電源

下載並安裝專有的 nvidia 驅動程序

這篇文章的想法

此時,我正在 mint 17.3 中進行所有故障排除並通過以下方式觀察輸出:

top  

tail -f /var/log/{messages,kernel,dmesg,syslog}

在核心級別我還能做些什麼來嘗試解決/追踪問題?

硬體:

華碩 M5 A97 R2.0 主機板

AMD FX 8320 8 核 3.5GHz cpu

Nvidia Geforce GT 730

2x8GB 金士頓 Hyperx 1866 DDR3 RAM

250GB 三星 SSD 850 EVO

1000Watt 80+Gold 電源(不需要,但具有擴展能力…目前系統功率 ~280w 和 EVGA 支持表示使用低功率系統的高功率 PS 效率低下,但不是問題。)

根據頂部的說法,自上次更改以來已經 2 天、1 小時和 46 分鐘(我進行了更改,重新啟動並啟動了 top 命令)。它一直在執行從 virtualbox(安裝和執行 Linux 來賓)到 vmware 工作站(執行 Windows 和 Linux mint 來賓並安裝更多 Linux 來賓)、timeshift、多個瀏覽器(chrome、帶有許多選項卡的 firefox)、切換 3d 立方體桌面、執行 steam等並且系統沒有凍結。CPU 已經達到了 200% 以上(它是一個 8 核,所以它可以看到 800%),我一直在做一些多任務處理。

最後一項更改是刪除顯卡的 ubuntu nvidia 驅動程序,並使用他們的說明直接從 nvidia 站點安裝專有驅動程序。這是我在原始文章之前的最後一次努力,考慮到我讀到的執行緒數說開源驅動程序對這張卡和類似卡非常有用,我沒想到它會起作用。

看起來這次是圖形驅動程序。

引用自:https://unix.stackexchange.com/questions/259219