GELU 激活函數

GELU的全稱是GAUSSIAN ERROR LINEAR UNIT

與Sigmoids相比,像ReLU,ELU和PReLU這樣的激活可以使神經網絡更快更好地收斂。

此外,Dropout通過將一些激活數乘以0來規範化模型。

以上兩種方法共同決定了神經元的輸出。但是,兩者彼此獨立工作。GELU旨在將它們結合起來。

另外,稱爲Zoneout的新RNN正則化器將輸入隨機乘以1

我們希望通過將輸入乘以0或1並確定性地獲得(激活函數的)輸出值來合併所有3個功能。

 

我們選擇這種分佈是因爲神經元的輸入遵循正態分佈尤其是在批歸一化之後

但是任何激活函數的輸出都應該是確定性的,而不是隨機的。因此,我們找到了轉換的期望值。

由於Φ(x)是高斯分佈的累積分佈,並且通常使用誤差函數進行計算,因此我們將高斯誤差線性單位(GELU)定義爲:

 

 

 

 

 

 

 

 

 

 

 

發佈了9 篇原創文章 · 獲贊 7 · 訪問量 5萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章