多 GPU 超級電腦

April 17, 2019

我有一個執行 ubuntu 伺服器 14.04 的超微伺服器，我想安裝一個 Quadro 400（用於顯示）、一個 Nvidia GTX 295 和一個 Nvidia K80 但是，當我為 K80 安裝驅動程序時，Quadro 400 和 Nvidia GTX 295 沒有出現在nvidia-smi
當我嘗試從 nvidia 網站安裝 GTX 295（似乎與 Quadro 400 相同）的驅動程序時，它說它需要解除安裝以前安裝的驅動程序（即使驅動程序是用於 K80而不是 GTX 295)
以前有人遇到過這個問題嗎？並且知道如何安裝和檢測多 GPU。
我還創建了一個（基於我以前的搜尋）我在 /etc/modprobe.d/ 中創建了一個名為 blacklist-nouveau.conf 的文件，其中包含以下內容
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
在執行 nvidia-smi 的那一刻（並在嘗試安裝所有驅動程序之後）我收到以下消息
Failed to initialize NVML: Unknown Error
謝謝

這是解決方案
我重新安裝了 Ubuntu 伺服器 14.04
我遵循了官方文件中的第 1-2 點和第 3 點
cuda-getting-started-guide-for-linux
我跑了 nvidia-smi，它只給我看了 K80
我拔掉了K80
我手動安裝了 gtx295 和 quadro 400 的驅動程序
 sudo apt-get install nvidia-340
我重新插入了K80
重新啟動系統並執行 Nvidia-smi（顯示所有顯卡，但似乎無法通過 CUDA 程式碼或 Nsight 訪問）
所以我重新執行（希望 GTX 和 Quadro 的驅動程序不會被刪除）
sudo apt-get install cuda-drivers
重新啟動了伺服器
（此時 Nvidia-smi）再次向我展示了 K80 ….！
我終於安裝了
 sudo apt-get install nvidia-cuda-toolkit
我重新啟動了伺服器
是的，它起作用了，它們都被檢測到並且所有 GPU 都可用。
現在所有的卡都出現在 Nvidia-smi 雖然我似乎也獲得了一個圖形界面，這很奇怪，因為我沒有安裝它，但公平。我現在看看它是否有效。

引用自：https://unix.stackexchange.com/questions/229245

多 GPU 超級電腦

相關問答

Ubuntu vs HiveOS NVIDIA GPU 電壓不足，如何？

nvidia gtx 690 和 ryzen 5 1600 cpu 是否與 ubuntu 18.04 LTS 兼容？

如何禁用（然後重新啟用）我的一個 NVIDIA GPU？

聯想ideapad遊戲3廣告Linux支持

安裝張量流的問題

在家折疊，NVIDIA GPU 卡在 Failed/Ready/Disabled 狀態