前言
在開始之前呢,先說說自己的歷程吧,最近由於要參加比賽的緣故(賽題是深度學習),開始接觸python,對於我這個沒有接觸過python的人來說,可以說是一臉懵逼,好在有給力的隊友和耐心的老師,以及得益於前輩的博客和帖子,逐漸開始弄明白一些機器學習上面的名詞,摸爬滾打10多天,終於把自己的訓練集訓練結束以及成功截取圖片,內心激動萬分,分享下自己在機器學習上面踩到的坑吧。
環境搭建
在確定要接觸深度學習之前,切記先看下自己的電腦配置是否達標,博主的配置爲筆記本
win 10 + 965m + i5-6300cpu 在訓練數據集的過程顯得很乏力,所以斟酌使用。
以下爲博主的環境配置:
TensorFlow-gpu:1.12.0
cuda:9.0
cudnn:7.5.1
Anaconda3:4.4.0
相關的下載教程請去網上查找,注意版本適配,這裏提供一個連接可以參考:https://blog.csdn.net/gangeqian2/article/details/79358543
第一個坑
下載完object detection API如果在搭建過程中提示
module 'tensorflow.python.keras' has no attribute 'Model'
解決方法:tensorflow-gpu的版本過低,升級到較新的版本即可。
pip install tensorflow-gpu==1.8.0
這裏要注意下,升級完後環境之間的適配性,也就是cudnn與cuda是否適配,與tensorflow是否適配,可以到tensorflow的官網查看,這裏放一張圖以及連接:https://tensorflow.google.cn/install/source_windows
第二個坑
配置過程中,提示asbl找不到
No module named 'absl' error when I import tensorflow
可以嘗試升級或者重新下載absl
pip install absl
這個問題可能是我自己的問題,應該比較少出現吧。
第三個坑
Could not find 'cudart64_92.dll'. TensorFlow requires
that this DLL be installed in a directory that is named in
your %PATH% environment variable. Download and install CUDA 9.2 from this URL: https://developer.nvidia.com/cuda-toolkit
注意查看是否下載了cudnn並且配置成功,並且注意版本的適配性。
第四個坑
找不到指定模塊。這個問題忘記截圖保存了。
問題有點摸不清,但是提供解決的思路。
一方面,還是經常說的,環境不匹配,可以檢查一下。
一方面,電腦上面的缺少vc++2015,可以查找並安裝。
第五個坑
if you want to see a list of allocated tensors when oom happens...
如果訓練數據集的過程中爆這個錯誤的話,很大概率是因爲配置不行,在config中找到batch_size參數,將他改小點,或許有點用處。
總結
很大問題其實都是環境的問題,一定一定要注意環境的匹配度。