Nvidia Tesla PH402 雙 P100 卡在 lspci 上顯示，但在 nvidia-smi 上不顯示

April 1, 2021

我安裝了 Dual P100 64G 卡，但無法讓 nvidia-smi 或 deviceQuery 辨識它。
我嘗試使用預設的 ubuntu 驅動程序和手動安裝來自 nvidia 網站的驅動程序（在清理預設驅動程序之後）但沒有成功。我按照這個過程安裝了 CUDA 工具包並編譯了包括 deviceQuery 在內的實用程序，但我總是得到No devices were found.
這是一些輸出：
$ lspci -nn | grep 3D
03:00.0 3D controller [0302]: NVIDIA Corporation Device [10de:15fa] (rev a1)
04:00.0 3D controller [0302]: NVIDIA Corporation Device [10de:15fa] (rev a1)

$ nvidia-smi 
No devices were found

$ cat /proc/driver/nvidia/version 
NVRM version: NVIDIA UNIX x86_64 Kernel Module  460.32.03  Sun Dec 27 19:00:34 UTC 2020
GCC version:  gcc version 9.3.0 (Ubuntu 9.3.0-17ubuntu1~20.04) 

$ ./deviceQuery Starting...

CUDA Device Query (Runtime API) version (CUDART static linking)

cudaGetDeviceCount returned 100
-&gt; no CUDA-capable device is detected
Result = FAIL
我似乎在驅動程序和卡之間找到連結的唯一地方是/sys/bus/pci/drivers/nvidia我看到我的特斯拉晶片 PCI id 的文件夾0000:03:00.0和0000:04:00.0
我怎樣才能讓它們按預期工作？

問題是硬體問題，我的舊板不支持足夠大的記憶體定址，以容納卡的 64G。它需要在 Bios 中啟用“高於 4G 解碼”並禁用 CSM 支持，而我的舊板不支持高於 4G 解碼。
在華碩 TUF x570 Plus 上，雖然使用了正確的 Bios 設置，但它可以工作！我可以使用這些卡，我在 nvidia-smi 等中都看到了它們。
在 Nvidia 論壇上查看更多詳細資訊：
https://forums.developer.nvidia.com/t/ph402-dual-p100-64g-rminitadapter-failed-memory-mapping-issue/173877

引用自：https://unix.stackexchange.com/questions/642716

Nvidia Tesla PH402 雙 P100 卡在 lspci 上顯示，但在 nvidia-smi 上不顯示

相關問答

Ubuntu vs HiveOS NVIDIA GPU 電壓不足，如何？

我目前正在執行的 GPU 驅動程序是什麼？

每次重新啟動時都必須重新安裝 NVidia 驅動程序

為 FX 5200 安裝舊版 Nvidia 驅動程序

螢幕閃爍：Ubuntu 20.04 LTS |英偉達 GeForce GTX 1650

藍牙無法在 Ubuntu 20.04 上打開