Google Chrome 中的 Segfault - 與 Nvidia 卡有關嗎?我怎麼知道?
系統
Linux Mint 19.3 Cinnamon 64 位,基於 Ubuntu 18.04 LTS。
相關硬體
- GPU : NVIDIA , GeForce GTX 1060 , Max-Q 設計, 6 GB VRAM
- CPU:英特爾酷睿 i7-7700HQ
誰能告訴我以下是否意味著我的 Nvidia 卡出現故障這樣的*特殊情況?*這可能只是 Google Chrome(穩定版)端或
nvidia-435
驅動程序中的軟體錯誤嗎?我怎麼知道?我只知道我的電腦當機了一兩秒鐘,這是:
dmesg
踪跡[Thu Jan 16 16:01:38 2020] show_signal_msg: 23 callbacks suppressed [Thu Jan 16 16:01:38 2020] GpuWatchdog[18858]: segfault at 0 ip 000055a9a5a6077d sp 00007f033f76c6c0 error 6 in chrome[55a9a1b25000+7170000] [Thu Jan 16 16:01:38 2020] Code: 48 c1 c9 03 48 81 f9 af 00 00 00 0f 87 c9 00 00 00 48 8d 15 19 61 9c fb f6 04 11 20 0f 84 b8 00 00 00 be 01 00 00 00 ff 50 30 <c7> 04 25 00 00 00 00 37 13 00 00 c6 05 f1 6b a4 03 01 80 7d 8f 00
我當時在做什麼
我正在玩 HTML5 遊戲(帝國鍛造)。
不,不是您的 Nvidia 卡有問題。Chrome 也不是。
首先發生的是 Nvidia 軟體崩潰,停止渲染管道。然後,幾秒鐘後,chrome 檢測到 GPU 不再渲染,嘗試處理它,失敗並拋出 segfault。
當機器處於崩潰狀態時,你 ssh 進入它並執行“top”,你會看到兩個程序
irq/75 nvidia
交替nv_queue
執行在 100% cpu 上(你的系統上的中斷號可能不同)。此外,在 GpuWatchdog 之前幾秒鐘,您的 syslog 可能包含來自 nvidia 驅動程序的一些消息:
Feb 10 17:00:24 natascha kernel: [157260.734117] NVRM: GPU at PCI:0000:08:00: GPU-f622f482-2ad1-4992-4d8a-9d62b465e084 Feb 10 17:00:24 natascha kernel: [157260.734120] NVRM: GPU Board Serial Number: Feb 10 17:00:24 natascha kernel: [157260.734124] NVRM: Xid (PCI:0000:08:00): 61, pid=1391, 0cde(308c) 00000000 00000000
該問題的報告遍布網際網路;我還沒有找到任何修復。我在我的新 PC 上遇到了同樣的問題,沒有執行 chrome 並沒有阻止崩潰,但阻止了 syslog 消息;從 435 恢復到 430 驅動程序使問題消失(到目前為止)。
更新:崩潰也發生在 430 名司機身上。440 驅動程序,不是 Ubuntu 的一部分,似乎可以解決這個問題。至少我不再有問題了,amrits 在https://devtalk.nvidia.com/default/topic/1060783/linux/random-xid-61-and-xorg-lock-up/上的文章7證實了這一點。
由於 440 驅動程序不是 Ubuntu 發行版的一部分,這就是我所做的 - 我從https://linuxconfig.org/how-to-install-the-nvidia-drivers-on-ubuntu-19-10-獲得了這些資訊eoan-ermine-linux大約是 Ubuntu 19.10,但也適用於 18.04:
sudo -i add-apt-repository ppa:graphics-drivers/ppa apt update
此時,
ubuntu-drivers devices
應該輸出,除其他外,# ubuntu-drivers devices == /sys/devices/pci0000:00/0000:00:03.1/0000:08:00.0 == modalias : pci:v000010DEd00001F02sv000010DEsd00001F02bc03sc00i00 vendor : NVIDIA Corporation driver : nvidia-driver-440 - third-party free recommended
然後你就可以安裝驅動了
apt install nvidia-driver-440
並且由於您無論如何都需要重新啟動以使新驅動程序處於活動狀態,因此我建議您也更新其餘軟體:
apt upgrade apt autoremove reboot
6 月 15 日更新 - 根據 nvidia 的說法,仍然沒有驅動程序修復,他們無法重現該問題。請參閱他們論壇上的主題。但是,當 GPU 從省電模式進入使用更多功率的模式時,似乎在某些主機板/GPU 組合上會出現問題。強制 GPU 提高頻率似乎可以防止這種情況發生,一些使用者報告以下作為解決方法:
nvidia-smi -pm ENABLED sudo nvidia-smi -lgc 1000,1815
(這必須在每次重新啟動時重複)
這會為卡設置一個永久(直到重新啟動)更高的頻率,從而導致更多的功耗和可能更短的壽命,但似乎可以解決崩潰問題,因此可能對許多使用者來說更可取。