Ubuntu

Nvidia Tesla PH402 雙 P100 卡在 lspci 上顯示,但在 nvidia-smi 上不顯示

  • April 1, 2021

我安裝了 Dual P100 64G 卡,但無法讓 nvidia-smi 或 deviceQuery 辨識它。

我嘗試使用預設的 ubuntu 驅動程序和手動安裝來自 nvidia 網站的驅動程序(在清理預設驅動程序之後)但沒有成功。我按照這個過程安裝了 CUDA 工具包並編譯了包括 deviceQuery 在內的實用程序,但我總是得到No devices were found.

這是一些輸出:

$ lspci -nn | grep 3D
03:00.0 3D controller [0302]: NVIDIA Corporation Device [10de:15fa] (rev a1)
04:00.0 3D controller [0302]: NVIDIA Corporation Device [10de:15fa] (rev a1)

$ nvidia-smi 
No devices were found

$ cat /proc/driver/nvidia/version 
NVRM version: NVIDIA UNIX x86_64 Kernel Module  460.32.03  Sun Dec 27 19:00:34 UTC 2020
GCC version:  gcc version 9.3.0 (Ubuntu 9.3.0-17ubuntu1~20.04) 

$ ./deviceQuery Starting...

CUDA Device Query (Runtime API) version (CUDART static linking)

cudaGetDeviceCount returned 100
-> no CUDA-capable device is detected
Result = FAIL

我似乎在驅動程序和卡之間找到連結的唯一地方是/sys/bus/pci/drivers/nvidia我看到我的特斯拉晶片 PCI id 的文件夾0000:03:00.00000:04:00.0

我怎樣才能讓它們按預期工作?

問題是硬體問題,我的舊板不支持足夠大的記憶體定址,以容納卡的 64G。它需要在 Bios 中啟用“高於 4G 解碼”並禁用 CSM 支持,而我的舊板不支持高於 4G 解碼。

在華碩 TUF x570 Plus 上,雖然使用了正確的 Bios 設置,但它可以工作!我可以使用這些卡,我在 nvidia-smi 等中都看到了它們。

在 Nvidia 論壇上查看更多詳細資訊:

https://forums.developer.nvidia.com/t/ph402-dual-p100-64g-rminitadapter-failed-memory-mapping-issue/173877

引用自:https://unix.stackexchange.com/questions/642716