Ubuntu 18.04.2深度學習cuda 10.2環境部署(二)

    深度學習的基本環境部署完成後,現在就要考慮到使用需求來進一步優化環境了,考慮到有些用戶需要兩張顯卡及以上需求,則需要部署cudnn來進行優化了
   在下載之前,需要進行註冊,註冊很簡單,可以使用社交賬號進行註冊。網站地址:https://developer.nvidia.com/cudnn

登錄後:
Ubuntu 18.04.2深度學習cuda 10.2環境部署(二)
根據自己部署的情況選擇下載,如下圖:
Ubuntu 18.04.2深度學習cuda 10.2環境部署(二)
我的環境是Ubuntu18.04,cuda10.2,所以我下載的是:
Ubuntu 18.04.2深度學習cuda 10.2環境部署(二)
安裝時先安裝運行時庫,然後是開發人員庫,最後是代碼示例和用戶指南
命令及提示代碼如下:
Ubuntu 18.04.2深度學習cuda 10.2環境部署(二)
Ubuntu 18.04.2深度學習cuda 10.2環境部署(二)
Ubuntu 18.04.2深度學習cuda 10.2環境部署(二)
由於工作環境原因,之前的硬件環境暫時用不了,不過後續的部署並不影響。
這種方式安裝,可以進行測試,測試命令:
cp -rp /usr/src/cudnn_samples_v7/ /home/xiong/cudnn_samples_v7 #這裏是複製到home目錄裏,我的是xiong用戶下的家目錄裏
cd /home/xiong/cudnn_samples_v7/mnistCUDNN
make clean && make
Ubuntu 18.04.2深度學習cuda 10.2環境部署(二)
這個測試需要前面我們部署的環境,只要前面環境部署成功,在此也就沒有問題了。這個圖片是以前部署成功截圖,只要最後信息顯示Test passed!代表成功了
下面就是部署anaconda3了
對於anaconda的安裝我進行了各類版本安裝以及多版本存在。
安裝了最新版本,但是安裝TensorFlow-gpu結果不匹配怎麼辦,重新安裝anaconda麼?
其實不用重新安裝,可以使用虛擬環境指定python版本就可以了。Ubuntu18.04這個系統本身就帶有python3.6。只是沒有anaconda一些常用的庫而已。
所以,安裝最新的anaconda3後,出現的情況就是兩者並存,默認優先使用最新版本的python,如現在的最新python3.7,裝完後執行命令python,默認進入python3.7:
Ubuntu 18.04.2深度學習cuda 10.2環境部署(二)
執行python3,也是進入python3.7,要想進入python3.6,只需執行python3.6:
Ubuntu 18.04.2深度學習cuda 10.2環境部署(二)
現在開始部署anaconda3了,首先去到官網下載:https://www.anaconda.com/download/
也可以使用國內源:
清華源:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/
下載完成後:
執行sudo bash Anaconda3-2020.02-Linux-x86_64.sh #自己選擇的哪個版本就換成那個版本名稱
Ubuntu 18.04.2深度學習cuda 10.2環境部署(二)
這一步回車就可以了
然後就是空格鍵,這裏是查看說明。
Ubuntu 18.04.2深度學習cuda 10.2環境部署(二)
這裏選擇yes
Ubuntu 18.04.2深度學習cuda 10.2環境部署(二)
這裏比較重要了,如果你要安裝多個版本的庫,這裏就不能用默認的了,需要自己填清楚,比如,你需要安裝anaconda3.5.2和最新的Anaconda3-2020.02,那命名就要詳細了。比如安裝的是anaconda3.5.2和最新的版本,則需要:
/usr/local/anaconda3.5.2或/usr/local/anaconda3-2020-02
Ubuntu 18.04.2深度學習cuda 10.2環境部署(二)
回車就好了。安裝多環境就要把版本詳細的命名,這樣以便於後期的維護。需要安裝多環境的,只需換一個版本包再執行一次安裝,在這裏詳細把版本命名上去。
這裏會自動配置變量,所以,執行conda時,是未找到命令,之所以這樣,不是沒有配置變量未成功,而是沒有更新,秩序執行命令:
source ~/.bashrc
然後就可以使用conda了
naconda3基本已經部署完成了,不過,由於一些需求,只安裝最新版本但是TensorFlow-gpu版本不匹配,那就可以創建虛擬環境來安裝。命令如下:
conda create –name tf python3.6 #創建tf環境
source activate tf #激活tf環境
conda install tensorflow-gpu=1.9
source activate tf
python3.6
import tensorflow as tf
Ubuntu 18.04.2深度學習cuda 10.2環境部署(二)

至此,TensorFlow-gpu就安裝完成了
source deactivate tf #退出tf環境
conda remove –name tf --all #刪除tf環境
同理,如果安裝keras,版本不兼容情況,也可以在創建一個虛擬環境進行安裝。
安裝pytorch
對於這個安裝,可以使用python創建一個虛擬環境來安裝,也可以直接安裝,下面選擇直接安裝。
由於國外網較慢,我們可以使用國內源來安裝,先配置相關的源:
sudo mkdir -pv ~/.pip
cd ~/.pip
sudo vim pip.conf
[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple
保存,退出
cd
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/
conda config --set show_channel_urls yes
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/pytorch/
對此,pip源和conda源安裝完成了
下面命令是pytorch官網下載指定版本的pytorch命令
conda install pytorch torchvision cudatoolkit=10.1 -c pytorch
添加國內源完成後,只需在這個命令去掉-c pytorch就可以了
這個命令是下載最新的pytorch版本,如果要下載低版本,命令如下:
conda install pytorch/torch=版本號 torchvision cudatoolkit=版本號 或
conda install torch/pytorch=版本號

  在執行上面命令之前,我們需要相關的權限,否則最後會因爲權限問題而報錯,命令如下:

sudo chown -R username:username /usr/local/anaconda3.5.2 #這個路徑就是之前按照anaconda3填寫的路徑了。
chmod 775 ./.conda
我部署時就因爲沒有這個anaconda3文件的寫入權限,但是即使777權限也會報錯,ls -l anaconda3發現用戶組和屬主都是root,所以需要修改成你使用的用戶屬主和屬組,也就是你使用的這個賬號名,命令中username這個改成你使用的用戶的用戶名。
Ubuntu 18.04.2深度學習cuda 10.2環境部署(二)
對此部署已經完成。
注:注意下機器是x86還是x86_64,我之前沒有注意,下載了x86的anaconda3的安裝包,安裝時報錯,百度了好久都沒找到解決問題,後來仔細查看安裝包的命名才發現下載錯了。
雖然我們使用了國內源,但是還是會出現中斷信號的問題,在部署過程中,所以,也可以把需要部署的軟件包下載到本地,我之前部署pytorch時,下載pytorch總是中斷,最後直接登錄鏈接,找到對應的軟件包下載鏈接,直接下載有時也會中斷,因爲我有迅雷會員,爲此使用的是迅雷下載,倒是沒有出現中斷。然後上傳到機器上,我是ssh遠程連接,上傳完成後。
安裝命令如下:
conda install --use-local your-pkg-name
這樣就本地安裝了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章