Linux-Mint

Google Chrome 中的 Segfault - 與 Nvidia 卡有關嗎?我怎麼知道?

  • December 7, 2021

系統

Linux Mint 19.3 Cinnamon 64 位,基於 Ubuntu 18.04 LTS。


相關硬體


誰能告訴我以下是否意味著我的 Nvidia 卡出現故障這樣的*特殊情況?*這可能只是 Google Chrome(穩定版)端或nvidia-435驅動程序中的軟體錯誤嗎?我怎麼知道?

我只知道我的電腦當機了一兩秒鐘,這是:

dmesg踪跡

[Thu Jan 16 16:01:38 2020] show_signal_msg: 23 callbacks suppressed
[Thu Jan 16 16:01:38 2020] GpuWatchdog[18858]: segfault at 0 ip 000055a9a5a6077d sp 00007f033f76c6c0 error 6 in chrome[55a9a1b25000+7170000]
[Thu Jan 16 16:01:38 2020] Code: 48 c1 c9 03 48 81 f9 af 00 00 00 0f 87 c9 00 00 00 48 8d 15 19 61 9c fb f6 04 11 20 0f 84 b8 00 00 00 be 01 00 00 00 ff 50 30 <c7> 04 25 00 00 00 00 37 13 00 00 c6 05 f1 6b a4 03 01 80 7d 8f 00

我當時在做什麼

我正在玩 HTML5 遊戲(帝國鍛造)。

不,不是您的 Nvidia 卡有問題。Chrome 也不是。

首先發生的是 Nvidia 軟體崩潰,停止渲染管道。然後,幾秒鐘後,chrome 檢測到 GPU 不再渲染,嘗試處理它,失敗並拋出 segfault。

當機器處於崩潰狀態時,你 ssh 進入它並執行“top”,你會看到兩個程序irq/75 nvidia交替nv_queue執行在 100% cpu 上(你的系統上的中斷號可能不同)。

此外,在 GpuWatchdog 之前幾秒鐘,您的 syslog 可能包含來自 nvidia 驅動程序的一些消息:

Feb 10 17:00:24 natascha kernel: [157260.734117] NVRM: GPU at PCI:0000:08:00: GPU-f622f482-2ad1-4992-4d8a-9d62b465e084
Feb 10 17:00:24 natascha kernel: [157260.734120] NVRM: GPU Board Serial Number: 
Feb 10 17:00:24 natascha kernel: [157260.734124] NVRM: Xid (PCI:0000:08:00): 61, pid=1391, 0cde(308c) 00000000 00000000

該問題的報告遍布網際網路;我還沒有找到任何修復。我在我的新 PC 上遇到了同樣的問題,沒有執行 chrome 並沒有阻止崩潰,但阻止了 syslog 消息;從 435 恢復到 430 驅動程序使問題消失(到目前為止)。


更新:崩潰也發生在 430 名司機身上。440 驅動程序,不是 Ubuntu 的一部分,似乎可以解決這個問題。至少我不再有問題了,amrits 在https://devtalk.nvidia.com/default/topic/1060783/linux/random-xid-61-and-xorg-lock-up/上的文章7證實了這一點。

由於 440 驅動程序不是 Ubuntu 發行版的一部分,這就是我所做的 - 我從https://linuxconfig.org/how-to-install-the-nvidia-drivers-on-ubuntu-19-10-獲得了這些資訊eoan-ermine-linux大約是 Ubuntu 19.10,但也適用於 18.04:

sudo -i
add-apt-repository ppa:graphics-drivers/ppa
apt update

此時,ubuntu-drivers devices應該輸出,除其他外,

# ubuntu-drivers devices
== /sys/devices/pci0000:00/0000:00:03.1/0000:08:00.0 ==
modalias : pci:v000010DEd00001F02sv000010DEsd00001F02bc03sc00i00
vendor   : NVIDIA Corporation
driver   : nvidia-driver-440 - third-party free recommended

然後你就可以安裝驅動了

apt install nvidia-driver-440

並且由於您無論如何都需要重新啟動以使新驅動程序處於活動狀態,因此我建議您也更新其餘軟體:

apt upgrade
apt autoremove
reboot

6 月 15 日更新 - 根據 nvidia 的說法,仍然沒有驅動程序修復,他們無法重現該問題。請參閱他們論壇上的主題。但是,當 GPU 從省電模式進入使用更多功率的模式時,似乎在某些主機板/GPU 組合上會出現問題。強制 GPU 提高頻率似乎可以防止這種情況發生,一些使用者報告以下作為解決方法:

nvidia-smi -pm ENABLED
sudo nvidia-smi -lgc 1000,1815

(這必須在每次重新啟動時重複)

這會為卡設置一個永久(直到重新啟動)更高的頻率,從而導致更多的功耗和可能更短的壽命,但似乎可以解決崩潰問題,因此可能對許多使用者來說更可取。

引用自:https://unix.stackexchange.com/questions/562458