如何理解深度學習分佈式訓練中的large batch size與learning rate的關係?
https://www.zhihu.com/question/64134994
通過不斷重置學習率來逃離局部極值點
https://blog.csdn.net/malefactor/article/details/78768210
你的模型真的陷入局部最優點了嗎?
https://www.jiqizhixin.com/articles/2018-07-29-6
如何找到全局最小值?先讓局部極小值消失吧
梯度下降學習率的設定策略
https://lumingdong.cn/setting-strategy-of-gradient-descent-learning-rate.html
Must Know Tips/Tricks in Deep Neural Networks閱讀筆記
如何避免陷入鞍點(局部最小)
https://blog.csdn.net/lfc2017/article/details/84864302
理解DL的局部最小
https://blog.csdn.net/JeremyCzh/article/details/80100601
深度學習基礎--BP和訓練--局部最優和鞍點
https://blog.csdn.net/wydbyxr/article/details/84025446
深度學習解決局部極值和梯度消失問題方法簡析
https://blog.csdn.net/zyazky/article/details/52174961
機器學習--“跳出”局部最小值
https://blog.csdn.net/qq_20880939/article/details/79814931
深度學習 - 解決局部最優點問題的方案
https://blog.csdn.net/maqunfi/article/details/82634529
深度學習最全優化方法總結比較(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)
https://zhuanlan.zhihu.com/p/22252270