Ubuntu

Lenovo Legion 5i RTX2060 頻繁當機和重啟

  • November 1, 2020

我買了一台全新的筆記型電腦並嘗試在其上安裝 Ubuntu 20.04(通過可啟動的 USB),但是我經常遇到導致系統無法使用的問題,即:

  • 一切都凍結(包括滑鼠游標,ctrl+alt+f1 組合不起作用),然後在大約 10 秒後重新啟動
  • 筆記型電腦突然重啟
  • 各種事情不斷崩潰(gnome-terminal-server、gnome-session 等)這些問題隨機發生,前兩個甚至在作業系統安裝期間。有時在系統啟動後立即啟動,有時在幾分鐘後。

我花了幾天時間嘗試從不同的角度解決這個問題,但沒有任何成功,並且非常感謝一些關於哪些途徑值得進一步探索以及如何探索的建議。如果這可能是硬體問題,那麼有辦法以某種方式證明它會很棒。

事實:

  1. 某些事件似乎與 syslog 中的“硬體錯誤”條目相關(儘管我發現一些非常相似的條目似乎並未觸發問題)。
Oct  9 14:38:36 test-Lenovo-Legion-5-15IMH05H kernel: [  629.400829] mce: [Hardware Error]: Machine check events logged
Oct  9 14:38:36 test-Lenovo-Legion-5-15IMH05H rasdaemon[726]: rasdaemon: register inserted at db
Oct  9 14:38:36 test-Lenovo-Legion-5-15IMH05H rasdaemon[726]:            <...>-2740  [004]     0.000063: mce_record:           2020-10-09 14:38:37 +0200 bank=2, status= c000014000010019, Generic TLB Level-1 Error, mci=Error_overflow Corrected_error, mca=Generic TLB Level-1 Error, cpu_type= Intel generic architectural MCA, cpu= 4, socketid= 0, mcgstatus=0, mcgcap= c0c, apicid= 8
  1. 為了確定這是否是硬體問題,我在筆記型電腦上安裝了 Windows 10 Home。安裝成功,作業系統花了幾個小時下載和安裝更新,總體上看起來還不錯。為了確保它在壓力下工作,我使用了幾個小時的 Windows,包括玩巫師 3 大約半小時沒有任何問題。

我嘗試診斷/解決問題的一些方法:

免責聲明:我對 Linux 的理解有限,在嘗試中我遵循了一些教程/指南,但我也可能犯了一些愚蠢的錯誤,導致我的結論錯誤

  1. 我嘗試通過下載 deb 文件、執行 dpkg -i linux*.deb 並在啟動菜單中選擇其他核心來安裝其他核心(5.8.14 和 5.9-rc8);安裝成功但沒有幫助
  2. 我嘗試安裝 Manjaro Gnome(核心 5.6)但沒有成功(它在安裝過程中凍結,然後它只是沒有啟動,所以我放棄了)
  3. 當我嘗試在沒有專有 GPU 驅動程序的情況下安裝 Ubuntu 時,我做了一些實驗,然後手動安裝 Nvidia“Long Lived”驅動程序(v450)或“Short Lived”驅動程序(v455);在這兩種情況下都安裝完成,但似乎沒有幫助
  4. 我嘗試了具有完全相同問題的 Ubuntu 20.10
  5. 我嘗試了 Linux 核心和 NVidia 驅動程序的各種組合,包括 arch-linux 上的最新版本
  6. 一些資源提出了與電源相關的問題。我唯一想到的是嘗試使用沒有連接直流適配器的筆記型電腦,但我仍然遇到凍結/重啟。

日誌

這是inxi -F && dmesg | grep -i error安裝期間啟用“安裝屬性驅動程序”的最小 20.04 的輸出。

System:    Host: test-Lenovo-Legion-5-15IMH05H Kernel: 5.4.0-48-generic x86_64 bits: 64 Desktop: Gnome 3.36.4 
          Distro: Ubuntu 20.04.1 LTS (Focal Fossa) 
Machine:   Type: Laptop System: LENOVO product: 81Y6 v: Lenovo Legion 5 15IMH05H serial: <superuser/root required> 
          Mobo: LENOVO model: LNVNB161216 v: NO DPK serial: <superuser/root required> UEFI: LENOVO v: EFCN32WW 
          date: 05/11/2020 

Battery:   ID-1: BAT0 charge: 61.4 Wh condition: 63.3/60.0 Wh (105%) 
CPU:       Topology: 6-Core model: Intel Core i7-10750H bits: 64 type: MT MCP L2 cache: 12.0 MiB 
          Speed: 800 MHz min/max: 800/5000 MHz Core speeds (MHz): 1: 800 2: 800 3: 800 4: 800 5: 800 6: 800 7: 800 8: 800 
          9: 800 10: 800 11: 800 12: 800 
Graphics:  Device-1: Intel UHD Graphics driver: i915 v: kernel 
          Device-2: NVIDIA TU106 [GeForce RTX 2060] driver: nvidia v: 450.66 
          Display: x11 server: X.Org 1.20.8 driver: modesetting,nvidia unloaded: fbdev,nouveau,vesa 
          resolution: 1920x1080~144Hz 
          OpenGL: renderer: GeForce RTX 2060/PCIe/SSE2 v: 4.6.0 NVIDIA 450.66 
Audio:     Device-1: Intel Comet Lake PCH cAVS driver: snd_hda_intel 
          Device-2: NVIDIA TU106 High Definition Audio driver: snd_hda_intel 
          Sound Server: ALSA v: k5.4.0-48-generic 
Network:   Device-1: Intel Wi-Fi 6 AX201 driver: iwlwifi 
          IF: wlp0s20f3 state: up mac: <REDACTED> 
          Device-2: Realtek RTL8111/8168/8411 PCI Express Gigabit Ethernet driver: r8169 
          IF: enp8s0 state: down mac: <REDACTED> 
Drives:    Local Storage: total: 476.94 GiB used: 8.08 GiB (1.7%) 
          ID-1: /dev/nvme0n1 vendor: Western Digital model: PC SN730 SDBQNTY-512G-1001 size: 476.94 GiB 
          ID-2: /dev/nvme1n1 vendor: SK Hynix model: HFM512GDHTNI-87A0B size: 476.94 GiB 
Partition: ID-1: / size: 468.00 GiB used: 8.01 GiB (1.7%) fs: ext4 dev: /dev/nvme0n1p2 
Sensors:   System Temperatures: cpu: 41.0 C mobo: N/A gpu: nvidia temp: 39 C 
          Fan Speeds (RPM): N/A 
Info:      Processes: 322 Uptime: 2m Memory: 31.23 GiB used: 1.32 GiB (4.2%) Shell: bash inxi: 3.0.38 
[    0.012647] [Firmware Bug]: TSC ADJUST differs within socket(s), fixing all errors
[    0.362528] ACPI BIOS Error (bug): Could not resolve symbol [\_SB.PCI0.I2C2.TPD0], AE_NOT_FOUND (20190816/dswload2-162)
[    0.362528] ACPI Error: AE_NOT_FOUND, During name lookup/catalog (20190816/psobject-220)
[    0.362528] ACPI BIOS Error (bug): Could not resolve symbol [\_SB.PCI0.I2C3.TPL1], AE_NOT_FOUND (20190816/dswload2-162)
[    0.362528] ACPI Error: AE_NOT_FOUND, During name lookup/catalog (20190816/psobject-220)
[    0.925916] RAS: Correctable Errors collector initialized.
[    6.754956] usb 1-6: device descriptor read/64, error -71
[    8.093725] EXT4-fs (nvme0n1p2): re-mounted. Opts: errors=remount-ro
[    8.399155] iwlwifi 0000:00:14.3: Direct firmware load for iwlwifi-QuZ-a0-hr-b0-50.ucode failed with error -2
[    8.399445] iwlwifi 0000:00:14.3: Direct firmware load for iwlwifi-QuZ-a0-hr-b0-49.ucode failed with error -2
[    9.295155] nvidia-gpu 0000:01:00.3: i2c timeout error e0000000
[    9.295162] ucsi_ccg: probe of 0-0008 failed with error -110

先感謝您

TL;DR 我得出的結論是,這可能是硬體問題,因此決定退回筆記型電腦。

全文:

  • 經過一番調查,我的印像是這個問題與 Nvidia GPU 有關,因為當我使用英特爾時,它不會在一兩天內發生。
  • 一位朋友建議我更新 BIOS;完成此操作並更新 NVidia 驅動程序後,幾天一切正常,只有一次奇怪的重啟和幾次 Gnome 崩潰
  • 在某些時候,我允許系統安裝系統更新,並且在 NVidia 和 Intel GPU 上,問題再次開始頻繁發生;對於該更新的記錄,Nvidia驅動程序從450.66.XX增加到450.80.02,但我不確定它是否與問題有關
  • 我注意到 MCE 錯誤大部分時間都與重新啟動相關,而且經常發生在 CPU 4 上;我認為這很可能是導致筆記型電腦無法使用的原因並開始了退貨流程。

引用自:https://unix.stackexchange.com/questions/613739