Linux
多 GPU 超級電腦
我有一個執行 ubuntu 伺服器 14.04 的超微伺服器,我想安裝一個 Quadro 400(用於顯示)、一個 Nvidia GTX 295 和一個 Nvidia K80 但是,當我為 K80 安裝驅動程序時,Quadro 400 和 Nvidia GTX 295 沒有出現在nvidia-smi
當我嘗試從 nvidia 網站安裝 GTX 295(似乎與 Quadro 400 相同)的驅動程序時,它說它需要解除安裝以前安裝的驅動程序(即使驅動程序是用於 K80而不是 GTX 295)
以前有人遇到過這個問題嗎?並且知道如何安裝和檢測多 GPU。
我還創建了一個(基於我以前的搜尋)我在 /etc/modprobe.d/ 中創建了一個名為 blacklist-nouveau.conf 的文件,其中包含以下內容
blacklist nouveau blacklist lbm-nouveau options nouveau modeset=0 alias nouveau off alias lbm-nouveau off
在執行 nvidia-smi 的那一刻(並在嘗試安裝所有驅動程序之後)我收到以下消息
Failed to initialize NVML: Unknown Error
謝謝
這是解決方案
- 我重新安裝了 Ubuntu 伺服器 14.04
- 我遵循了官方文件中的第 1-2 點和第 3 點
cuda-getting-started-guide-for-linux
- 我跑了 nvidia-smi,它只給我看了 K80
- 我拔掉了K80
- 我手動安裝了 gtx295 和 quadro 400 的驅動程序
sudo apt-get install nvidia-340
- 我重新插入了K80
- 重新啟動系統並執行 Nvidia-smi(顯示所有顯卡,但似乎無法通過 CUDA 程式碼或 Nsight 訪問)
- 所以我重新執行(希望 GTX 和 Quadro 的驅動程序不會被刪除)
sudo apt-get install cuda-drivers
- 重新啟動了伺服器
(此時 Nvidia-smi)再次向我展示了 K80 ….!
- 我終於安裝了
sudo apt-get install nvidia-cuda-toolkit
- 我重新啟動了伺服器
- 是的,它起作用了,它們都被檢測到並且所有 GPU 都可用。
現在所有的卡都出現在 Nvidia-smi 雖然我似乎也獲得了一個圖形界面,這很奇怪,因為我沒有安裝它,但公平。我現在看看它是否有效。