Power-Management

帶有 Ubuntu 16.04 和 4.4.0-137-generic 核心的 NVIDIA DevBox 隨機重啟並在一夜之間自動關閉

  • February 23, 2019

我最近說過使用具有華碩 bios 的 NVIDIA DevBox,以及上面提到的核心版本和 ubuntu 版本。由於某些原因,機器不能像其他筆記型電腦和/或電腦機器一樣整夜開機:您可以將其留在機器上,幾分鐘後它會自行鎖定和/或進入睡眠模式- 第二天,一旦您移動滑鼠或在鍵盤上鍵入內容,電腦就會“取消暫停”或喚醒,您的所有程序都已打開並執行,就像您前一天離開它們的方式一樣。

出於某種奇怪的原因,這台機器沒有發生這種情況。在我之前有一個使用者大約一年沒有碰過機器,所以他/她可能已經做了一些關於省電的配置,但是當我檢查電源選項時一切看起來都很好在我的機器中(我有它暫停 - 1 小時,並鎖定 1 小時)。我想我注意到的有趣的事情是,如果我午飯後回來並且機器被鎖定/暫停,它會毫無問題地回到會話中,但如果我把它放在一夜之間,那麼我第二天就會到達機器已自動關閉。大樓被鎖住了,所以其他人不可能在一夜之間按電源關閉按鈕,而我'

我在幾個地方讀到,由於電源不良或損壞,這可能是一個加熱問題,但我如何檢查是否是這種情況?我有 psensor 應用程序,但這似乎只是實時記錄溫度,而沒有將它們保存到一個文件中,我可以在其中檢查任何顯卡(有 4 個)或主機板的溫度。

診斷機器自動關機的另一種方法是什麼?我怎麼知道是加熱問題還是電源故障?或者可能是核心問題?除了我在安裝方面非常有經驗的 NVIDIA 驅動程序外,這台機器目前沒有安裝真正的密集程序(幾乎是新的),所以也許我可以考慮安裝全新的 Ubuntu?- 儘管如果存在硬體問題,這幾乎毫無意義

其他詳情:

NVIDIA 驅動程序已正確安裝。當我強制執行以下命令並且機器連續執行 2 天(這對這些機器來說應該是輕而易舉的)時,驅動程序被竊聽並且機器響應非常糟糕,直到它在超過 5 分鐘後很難執行半夜連續隨機重啟 2 次:

$ unset autologoff

我必須稍後正確地重新安裝驅動程序(並重新設置自動日誌選項),並且系統回到其目前狀態,如果超過 24 小時不做任何事情(不做任何事情),它“需要”自行關閉因為它沒有接收人工輸入,但後端程序可能仍在執行)。

  • 主機板:華碩 EATX DDR4 LGA 2011-3 主機板 X99-E WS/USB 3.1
  • CPU:英特爾至強 E5-2690 v4 2.6 GHz 14 核 LGA 2011 處理器 135 W
  • 冷卻器:Corsair Hydro Series H80i v2 Extreme Performance Liquid CPU Cooler,黑色。
  • 電源:EVGA SuperNOVA 1600 P2 80+ PLATINUM,1600W ECO 模式全模組化 NVIDIA SLI 和 Crossfire Ready 10 年保修電源 220-P2-1600-X1
  • 顯卡:4 Titan X Pascal。

pci=noaer在發現機器給我這個錯誤後,我添加了in booting: https ://askubuntu.com/questions/771899/pcie-bus-error-severity-corrected

輸出:

$ cat /proc/cmdline

BOOT_IMAGE=/boot/vmlinuz-4.4.0-137-generic.efi.signed root=UUID=569dd2ad-c5a6-4ae4-a167-f849b8f6ae9e ro quiet splash pci=noaer vt.handoff=7

通過將系統上傳到 Ubuntu 18.04 解決了問題。從未找到錯誤的根源,但我懷疑它與核心可能與顯卡、BIOS 和 16.04 Ubuntu 版本不匹配有關。

引用自:https://unix.stackexchange.com/questions/501743