這裏記錄我在解決1st place 方案時積累的知識.
- 1*1的卷積核的作用:可以增加通道或者降低通道數量,減少訓練參數.
- Xception: 綜述
- Momentum優化SGD
- 遷移學習:根據數據集分四種情況,1.數據集比較小且和原數據集合比較相似,替換最後一層全連接層然後凍結其他層,只訓練最後一層全連接。2.數據集比較小且和原數據集不相似時,只保留幾層卷積層,其他刪除,添加一層全連接層,重新訓練。數據集比較小,需要優先考慮避免過擬合,預訓練的權值所以不變。
- 數據集比較大和原數據集相似,替換最後一層全連接層,前幾層的預訓練權值作爲初始化數值繼續訓練。4.數據集大且和原數據集不相似,替換最後一層全連接層,然後進入3情況,或者全部層做初始化,重新訓練。
多種損失函數 - 梯度剪裁:當梯度更新率小於某個閾值時,直接截斷更新,用一個閾值來代替,可以提高更新速度。
- Attention機制:概述