前段時間服務器的配置出了問題,只能將顯卡驅動、cuda、cudnn都重新安裝配置。 沒想到,才過了沒多久,有兩臺服務器又相繼出現問題,需要重新安裝。想到上次安裝的時候臨時找教程和資料的痛苦,這次決定將整個安裝過程以及遇到的問題和解決方法記錄下來,以後或許還會用到。
1 版本信息
系統及待安裝的驅動、cuda和cudnn版本信息如下:
系統:Ubuntu 18.04
顯卡驅動:NVIDIA-Linux-x86_64-430.40
cuda:cuda_10.0.130_410.48_linux
cudnn:cudnn-10.0-linux-x64-v7.6.2.24
2 顯卡驅動安裝
2.1 準備工作
在安裝顯卡驅動之前,需要先在系統的blacklist.conf中將nouveau驅動禁用。
打開blacklist.conf文件:
sudo vim /etc/modprobe.d/blacklist.conf
在該文件末尾添加:
blacklist nouveau
options nouveau modeset=0
保存修改,然後退出,接着執行:
sudo update-initramfs -u
重啓系統,執行以下命令:
lsmod | grep nouveau
沒有輸出任何信息,則nouveau被成功禁用。過程如下圖所示:
2.2 驅動安裝
Nvidia顯卡驅動安裝的過程分爲三個步驟:(1) 禁用X-Windows服務;(2) 卸載原有顯卡驅動;(3) 安裝新的驅動。所有操作都是在命令行中進行操作,我是terminal登錄的服務器,默認是命令行方式。如果是界面登錄的話,需要通過以下組合快捷鍵登出,進入到命令行操作。
Ctrl + Alt + F1
(1) 禁用X-Windows服務
sudo service lightdm stop
在執行上述命令時,可能會出現失敗的情況,報如下錯誤:
Failed to stop lightdm.service: Unit lightdm.service not loaded.
出現這個錯誤的原因是系統並沒有安裝lightdm,通過以下指令安裝後,再stop就可以了。
sudo apt install lightdm
sudo service lightdm stop
安裝lightdm出現如下選項,選擇lightdm。
如果未禁用X-Windows,可能出現如下錯誤:
如果禁用後該錯誤還是出現上述錯誤的話,則通過init 3切換到命令行,並刪除X相關文件。
sudo init 3
sudo rm /tmp/.X*
(2) 卸載原有顯卡驅動
安裝新的驅動前,需要將之前安裝的nvidia相關的東西都刪掉,命令如下:
sudo apt-get remove --purge nvidia*
(3) 安裝新的驅動
首先,需要給下載的驅動.run文件可執行的權限(chmod +x),也可以直接給所有權限(chmod 777)。
sudo chmod 777 NVIDIA-Linux-x86_64-430.40.run
運行該驅動程序:
sudo ./NVIDIA-Linux-x86_64-430.40.run
安裝過程中會有一些選項,默認回車即可。
顯卡驅動安裝完成。
再次啓動X-Windows服務,並重啓系統。
sudo service lightdm start
reboot
3 cuda安裝
如果之前安裝了cuda,老規矩,先卸載,並刪除cuda-10.0文件夾。命令如下:
sudo /usr/local/cuda-10.0/bin/uninstall_cuda_10.0.pl
sudo rm -rf /usr/local/cuda-10.0/
接着,給cuda程序權限:
chmod 777 cuda_10.0.130_410.48_linux.run
運行該程序:
sudo ./cuda_10.0.130_410.48_linux.run
安裝之前,有很長的閱讀說明,使用空格鍵快速瀏覽完畢。之後會進入一些配置選項,下圖所示選擇即可。
安裝完成之後,需要配置cuda環境變量,對.bashrc文件進行修改:
vim ~/.bashrc
在文件最後補充如下配置:
export CUDA_HOME=/usr/local/cuda-10.0
export LD_LIBRARY_PATH=${CUDA_HOME}/lib64
export PATH=${CUDA_HOME}/bin:${PATH}
最後,通過source命令使上述修改生效。
source ~/.bashrc
配置完成後,通過nvcc -V命令查看cuda的版本信息:
nvcc -V
測試cuda是否安裝成功的命令如下:
cd /usr/local/cuda-10.0/samples/1_Utilities/deviceQuery
make
./deviceQuery
顯示如下信息:
通過nvidia-smi查看GPU使用情況:
4 cudnn安裝
cudnn的安裝比較簡單,只需要將下載的cudnn壓縮包解壓後複製到cuda目錄中即可。
解壓命令如下:
tar -zxvf cudnn-10.0-linux-x64-v7.6.2.24.tgz
複製命令如下:
sudo cp cuda/lib64/* /usr/local/cuda-10.0/lib64/
sudo cp cuda/include/* /usr/local/cuda-10.0/include/
完成後,查看cudnn的版本信息。命令如下:
cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2
至此,顯卡驅動、cuda和cudnn就全部安裝配置完成,可以開始歡快的煉丹之旅了。