batch_size對模型訓練結果的影響

原創

2020-06-19 05:18

深度學習用mini-batch進行反向傳播時，先將mini-batch中每個instance得到的loss平均化後再反向求梯度。

即：每次反向傳播的梯度是對mini-batch中每個instance的梯度平均之後的結果。

所以batchsize的大小決定了相鄰迭代之間的梯度平滑程度，也決定了每個epoch的時間。

當batchsize太小時，相鄰mini-batch間的差異太大，會造成相鄰兩次迭代的梯度震盪比較嚴重，不利於網絡模型收斂；
當batchsize越大時，相鄰mini-batch中的差異越小，雖然梯度震盪會比較小，但是在一定程度有利於模型的收斂；
但是當batchsize極端大時，相鄰mini-batch中的差異過小，兩個相鄰的mini-batch的梯度就沒有區別了，整個訓練就按照一個方向一直走，容易陷入到局部最優。

batchsize對於訓練時間的影響：

反向的過程取決於模型的複雜度，與batchsize的大小關係不大，而正向則同時取決於模型的複雜度和batch size的大小。

完成每個epoch的時間取決於：

1、load數據的時間

2、每個epoch的iter數量。

因此對於每個epoch，不管是純計算時間還是全部時間，大體上還是大batch能夠更節約時間一點，但隨着batch增大，iter次數減小，完成每個epoch的時間更取決於加載數據所需的時間，此時也不見得大batch能帶來多少的速度增益了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

將hdf5模型保存成h5模型

resnet_mcnn_model = M_CNN(img_shape, img_shape, mask_shape, num_class) resnet_mcnn_weight = "D:/workspace/weights-impr

2020-07-07 04:13:18

Resnet網絡解讀

ResNet使用兩種殘差單元，如圖6所示。左圖對應的是淺層網絡，而右圖對應的是深層網絡。對於短路連接，當輸入和輸出維度一致時，可以直接將輸入加到輸出上。但是當維度不一致時（對應的是維度增加一倍），這就不能直接相加。有兩種策略：（1）採用z

2020-06-19 02:54:41

tensorboard 拒絕了我們的連接請求

2020-04-27 02:53:27

ValueError: setting an array element with a sequence

2020-03-05 11:48:43

GAN的訓練心得技巧（彙總）

2020-02-24 07:27:47

將hdf5模型保存成h5模型

resnet_mcnn_model = M_CNN(img_shape, img_shape, mask_shape, num_class) resnet_mcnn_weight = "D:/workspace/weights-impr

2020-07-07 04:13:18

Resnet網絡解讀

ResNet使用兩種殘差單元，如圖6所示。左圖對應的是淺層網絡，而右圖對應的是深層網絡。對於短路連接，當輸入和輸出維度一致時，可以直接將輸入加到輸出上。但是當維度不一致時（對應的是維度增加一倍），這就不能直接相加。有兩種策略：（1）採用z

2020-06-19 02:54:41

tensorboard 拒絕了我們的連接請求

2020-04-27 02:53:27

ValueError: setting an array element with a sequence

2020-03-05 11:48:43

tensorflow中常用學習率更新策略

2020-02-24 07:27:47

權重衰減防止過擬合（L2正則化）

2020-02-24 07:27:47

GAN的訓練心得技巧（彙總）

2020-02-24 07:27:47

全變分模型(TV)

2019-03-27 08:51:41

Dice係數,F1-score,ROC-AUC的含義，PR曲線含義

2019-03-16 06:10:34

OTSU閾值分割

2019-03-16 06:10:34

24小時熱門文章

最新文章

最新評論文章