安裝參考:https://blog.csdn.net/Harpoon_fly/article/details/84260810
1. 環境
ubuntu16.04+GT840M
2. 安裝文件
NVIDIA-Linux-x86_64-418.56.run
cuda_9.0.176_384.81_linux.run
cudnn-9.0-linux-x64-v7.3.1.20.solitairetheme8
Anaconda3-5.2.0-Linux-x86_64.sh
3. 走的彎路
1.安裝前一定查看顯卡驅動版本、cuda版本、cudnn版本、tensorflow在linux和windows下支持的cuda版本和cudnn版本的對應關係。
參考:
cuda和顯卡驅動版本對應關係
http://www.cnblogs.com/superxuezhazha/p/10623270.html
Tensorflow不同版本要求與CUDA及CUDNN版本對應關係
https://blog.csdn.net/omodao1/article/details/83241074
顯卡各個版本下載地址
https://developer.nvidia.com/cuda-toolkit-archive
2.開始是通過安裝cuda.run文件安裝顯卡驅動的,不成功。最後通過單獨安裝顯卡包解決的。
3.安裝顯卡驅動後,運行nvidia-smi命令後出現:
nvidia-smi has failed because it couldn’t communicate with the nvidia driver. Make sure that the latest nvidia driver is installed and running.
通過鏈接中的方法解決。
4.安裝tensorflow-gpu後,運行實例可能會出現tensorflow的CUDA driver version is insufficient for CUDA runtime version。
安裝命令:conda install tensorflow-gpu -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/
最近清華鏡像網址訪問不了了,可以訪問:
https://repo.anaconda.com/pkgs/main/linux-64/
https://repo.anaconda.com/pkgs/free/linux-64/
用conda list查看,發現安裝的cudatoolkit和cudnn版本與你電腦上安裝的版本可能不一致,默認安裝的tensorflow版本是1.13、cudatoolkit版本是10.0、cudnn是哪個版本忘了。沒辦法只能卸載cudatoolkit和cudnn,安裝相應的版本。
建議安裝順序爲cudatoolkit、cudnn、tensorflow
conda install cudatoolkit=9.0 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/
conda install cudnn=7.3.1 -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/
conda install tensorflow-gpu -c https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/
通過訪問https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/linux-64/可以查看可以安裝的版本如下,有可能前期你裝的cuda和cudnn版本會和後面tensorflow能支持的版本不一樣,安裝前一定要先查看支持的版本。而且不同的源中的支持的版本也不一樣:
cudatoolkit-10.0.130-0.tar.bz2
cudatoolkit-9.0-h13b8566_0.tar.bz2
cudatoolkit-9.2-0.tar.bz2
cudnn-7.0.5-cuda8.0_0.tar.bz2
cudnn-7.1.2-cuda9.0_0.tar.bz2
cudnn-7.1.3-cuda8.0_0.tar.bz2
cudnn-7.2.1-cuda9.2_0.tar.bz2
cudnn-7.3.1-cuda10.0_0.tar.bz2
cudnn-7.3.1-cuda9.0_0.tar.bz2
cudnn-7.3.1-cuda9.2_0.tar.bz2
5.運行實例報錯
ImportError: DLL load failed: 找不到指定的模塊 Failed to load the native TensorFlow runtime
最後降低tensorflow版本爲1.12.0,解決了該問題。
附加:
18.04版本,安裝顯卡驅動時,關閉圖形界面,報錯:
sudo service lightdm stop
Failed to stop lightdm.service: Unit lightdm.service not loaded.
那就安裝lightdm
apt install lightdm
安裝完成,系統會提示選擇登錄界面程序,兩個選項gdm3和lightdm,選擇lightdm。
安裝cuda時,出現:
Toolkit: Installation Failed. Using unsupported Compiler.
解決的方法很簡單,直接在安裝命令之後加–override再安裝。
超詳細:win10安裝tensorflow-gpu1.8.0完整步驟
https://blog.csdn.net/xiaohuihui1994/article/details/83589701
Linux從入門到適應(四):Ubuntu 16.04環境下,安裝Nvidia驅動,cuda9.2和 cudnn
http://www.cnblogs.com/code-wangjun/p/9986255.html
Ubuntu 16.04 卸載Nvidia顯卡驅動和cuda
https://blog.csdn.net/ezhchai/article/details/80536949
windows如何卸載cuda8.0
https://blog.csdn.net/m0_37160535/article/details/80077903
https://www.zhihu.com/question/52174028/answer/272248256
TensorFlow 官方文檔中文版
https://github.com/jikexueyuanwiki/tensorflow-zh