一:使用正則化技巧提高模型的泛化能力
常用的正則化方法如下所示:
- L1、L2 正則化
- dropout 正則化
- Data Augmentation 增加訓練樣本
- Early stopping 選擇合適的迭代訓練次數
二:梯度優化
常用的梯度優化方法如下:
-
梯度下降
-
隨機梯度下降 (SGD)
-
動量梯度下降 (Momentum GD)
-
AdaGrad
-
RMSprop
-
Adam
三:網絡初始化技巧和超參數調優
- 超參數的調試:
- 學習因子 α
- 動量梯度下降因子 β
- Adam 優化算法參數 β1、β2、ε
- 神經網絡層數
- 各隱藏層神經元個數
- 學習因子下降參數
- 批量訓練樣本包含的樣本個數
- L1、L2 正則化係數 λ