Ubuntu18.04服務器端安裝Nvidia 430顯卡驅動+cuda10.0+cudnn7.6

前段時間服務器的配置出了問題,只能將顯卡驅動、cuda、cudnn都重新安裝配置。 沒想到,才過了沒多久,有兩臺服務器又相繼出現問題,需要重新安裝。想到上次安裝的時候臨時找教程和資料的痛苦,這次決定將整個安裝過程以及遇到的問題和解決方法記錄下來,以後或許還會用到。

1  版本信息

系統及待安裝的驅動、cuda和cudnn版本信息如下:

系統:Ubuntu 18.04

顯卡驅動:NVIDIA-Linux-x86_64-430.40

cuda:cuda_10.0.130_410.48_linux

cudnn:cudnn-10.0-linux-x64-v7.6.2.24

2  顯卡驅動安裝

2.1  準備工作

在安裝顯卡驅動之前,需要先在系統的blacklist.conf中將nouveau驅動禁用。

打開blacklist.conf文件:

sudo vim /etc/modprobe.d/blacklist.conf

在該文件末尾添加:

blacklist nouveau
options nouveau modeset=0

保存修改,然後退出,接着執行:

sudo update-initramfs -u

重啓系統,執行以下命令:

lsmod | grep nouveau

沒有輸出任何信息,則nouveau被成功禁用。過程如下圖所示:

2.2 驅動安裝

Nvidia顯卡驅動安裝的過程分爲三個步驟:(1) 禁用X-Windows服務;(2) 卸載原有顯卡驅動;(3) 安裝新的驅動。所有操作都是在命令行中進行操作,我是terminal登錄的服務器,默認是命令行方式。如果是界面登錄的話,需要通過以下組合快捷鍵登出,進入到命令行操作。

Ctrl + Alt + F1

(1) 禁用X-Windows服務

sudo service lightdm stop

在執行上述命令時,可能會出現失敗的情況,報如下錯誤:

Failed to stop lightdm.service: Unit lightdm.service not loaded.

出現這個錯誤的原因是系統並沒有安裝lightdm,通過以下指令安裝後,再stop就可以了。

sudo apt install lightdm

sudo service lightdm stop

安裝lightdm出現如下選項,選擇lightdm。

如果未禁用X-Windows,可能出現如下錯誤:

如果禁用後該錯誤還是出現上述錯誤的話,則通過init 3切換到命令行,並刪除X相關文件。

sudo init 3

sudo rm /tmp/.X*

(2) 卸載原有顯卡驅動

安裝新的驅動前,需要將之前安裝的nvidia相關的東西都刪掉,命令如下:

sudo apt-get remove --purge nvidia*

(3) 安裝新的驅動

首先,需要給下載的驅動.run文件可執行的權限(chmod +x),也可以直接給所有權限(chmod 777)。

sudo chmod 777 NVIDIA-Linux-x86_64-430.40.run

運行該驅動程序:

sudo ./NVIDIA-Linux-x86_64-430.40.run

安裝過程中會有一些選項,默認回車即可。

顯卡驅動安裝完成。

再次啓動X-Windows服務,並重啓系統。

sudo service lightdm start

reboot

3  cuda安裝

如果之前安裝了cuda,老規矩,先卸載,並刪除cuda-10.0文件夾。命令如下:

sudo /usr/local/cuda-10.0/bin/uninstall_cuda_10.0.pl

sudo rm -rf /usr/local/cuda-10.0/

接着,給cuda程序權限:

chmod 777 cuda_10.0.130_410.48_linux.run

運行該程序:

sudo ./cuda_10.0.130_410.48_linux.run

安裝之前,有很長的閱讀說明,使用空格鍵快速瀏覽完畢。之後會進入一些配置選項,下圖所示選擇即可。

安裝完成之後,需要配置cuda環境變量,對.bashrc文件進行修改:

vim ~/.bashrc

在文件最後補充如下配置:

export CUDA_HOME=/usr/local/cuda-10.0
export LD_LIBRARY_PATH=${CUDA_HOME}/lib64
export PATH=${CUDA_HOME}/bin:${PATH}

最後,通過source命令使上述修改生效。

source ~/.bashrc

配置完成後,通過nvcc -V命令查看cuda的版本信息:

nvcc -V

測試cuda是否安裝成功的命令如下:

cd /usr/local/cuda-10.0/samples/1_Utilities/deviceQuery

make

./deviceQuery

顯示如下信息:

通過nvidia-smi查看GPU使用情況:

4  cudnn安裝

cudnn的安裝比較簡單,只需要將下載的cudnn壓縮包解壓後複製到cuda目錄中即可。

解壓命令如下:

tar -zxvf cudnn-10.0-linux-x64-v7.6.2.24.tgz

複製命令如下:

sudo cp cuda/lib64/* /usr/local/cuda-10.0/lib64/

sudo cp cuda/include/* /usr/local/cuda-10.0/include/

完成後,查看cudnn的版本信息。命令如下:

cat /usr/local/cuda/include/cudnn.h | grep CUDNN_MAJOR -A 2

 

至此,顯卡驅動、cuda和cudnn就全部安裝配置完成,可以開始歡快的煉丹之旅了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章