深度學習中爲什麼模型輸入大多是正方形圖像？

原創

2020-06-16 15:47

導語

大多數深度學習模型（例如VGG，ResNet等）都需要正方形圖像作爲輸入，通常像素大小爲224x224。輸入的長寬必須相等是有原因的嗎？還是可以建立一個100x200輸入的卷積神經網絡模型？更大的像素尺寸（例如512x512）會帶來更多好處嗎？

出於實用性的折衷

卷積神經網絡不需要特定的像素尺寸即可正常運行。選擇這些值是出於實用的原因：例如圖像分辨率與參數數量和所需的訓練集大小之間的折衷。畢竟，輸入圖像尺寸越大，模型的參數或者計算量也會隨之上升。

方便獲取ROI（感興趣目標）

另外，如果數據集圖片具有一系列不同的縱橫比（比如肖像豎圖、風景橫圖），考慮目標對象通常在中心，那麼從中間採取方形作物是一個合理的方案。

圖像分辨率的影響

當增加輸入圖像的大小時，還將增加網絡處理該輸入圖像所需的噪聲和數據變動。這可能意味着模型需要加入更多的網絡層（比如卷積和池化），同時也可能意味着需要準備更多的訓練數據。這將會增加訓練模型所需的計算資源。當然如果可以接受這些代價，更高分辨率的圖像一般會得到更好的模型。

關於是否需要更高分辨率的一個判斷方法是：如果該任務領域的人類專家可以利用高分辨率圖像來更好地完成任務，那麼大尺寸圖像輸入是可取的。在迴歸系統中可能就是這種情況，比如在人臉識別系統中，高分辨率的圖片保留更多的人臉特徵，更容易對人進行判別，這類任務使用大圖片是合適的。

END

掃碼關注

獲取最新AI資訊與實戰案例

實用AI客棧

小編微信號 : langu86

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.