1、sigmoid函數
所以啊很明顯,會導致梯度消失(因爲在反向傳播BPTT過程中,在對w求導時,會包含f(x)的導數,多層時就相當於0.25的n次方,前面的單元更新態度太小了,所以是梯度消失啦)
2、tanh函數
,且有很大概率在0附近,所以根據上面所述,就是會梯度消失呀
3、Relu函數
- 優點:避免梯度消失問題,每一層的權重更新同等對待。計算速度快+收斂速度快。
- 缺點:1、Dead Relu Problem問題:learning rate較大時,如果初始w分佈是一個均值是0.1,方差較小的分佈,那麼激活函數的輸入就是一個正值,BPTT時,由於learning rate大,可能會出現w變成一個均值是0.1,方差較小的分佈,那麼這時激活函數的輸入就是一個負值,這就會導致梯度更新時梯度一直是0,w更新不了。2、Relu的輸出不是zero-centered的
4、Prelu函數
α爲0.01,這樣就可以有效解決dead relu問題,因爲梯度值不會爲0了呀
5、ELU函數
這樣就可以解決zero-centered問題了,儘量時均值爲0嘛,同時避免dead relu問題