Ubuntu
Nvidia Tesla PH402 雙 P100 卡在 lspci 上顯示,但在 nvidia-smi 上不顯示
我安裝了 Dual P100 64G 卡,但無法讓 nvidia-smi 或 deviceQuery 辨識它。
我嘗試使用預設的 ubuntu 驅動程序和手動安裝來自 nvidia 網站的驅動程序(在清理預設驅動程序之後)但沒有成功。我按照這個過程安裝了 CUDA 工具包並編譯了包括 deviceQuery 在內的實用程序,但我總是得到
No devices were found
.這是一些輸出:
$ lspci -nn | grep 3D 03:00.0 3D controller [0302]: NVIDIA Corporation Device [10de:15fa] (rev a1) 04:00.0 3D controller [0302]: NVIDIA Corporation Device [10de:15fa] (rev a1) $ nvidia-smi No devices were found $ cat /proc/driver/nvidia/version NVRM version: NVIDIA UNIX x86_64 Kernel Module 460.32.03 Sun Dec 27 19:00:34 UTC 2020 GCC version: gcc version 9.3.0 (Ubuntu 9.3.0-17ubuntu1~20.04) $ ./deviceQuery Starting... CUDA Device Query (Runtime API) version (CUDART static linking) cudaGetDeviceCount returned 100 -> no CUDA-capable device is detected Result = FAIL
我似乎在驅動程序和卡之間找到連結的唯一地方是
/sys/bus/pci/drivers/nvidia
我看到我的特斯拉晶片 PCI id 的文件夾0000:03:00.0
和0000:04:00.0
我怎樣才能讓它們按預期工作?
問題是硬體問題,我的舊板不支持足夠大的記憶體定址,以容納卡的 64G。它需要在 Bios 中啟用“高於 4G 解碼”並禁用 CSM 支持,而我的舊板不支持高於 4G 解碼。
在華碩 TUF x570 Plus 上,雖然使用了正確的 Bios 設置,但它可以工作!我可以使用這些卡,我在 nvidia-smi 等中都看到了它們。
在 Nvidia 論壇上查看更多詳細資訊: