GELU的全稱是GAUSSIAN ERROR LINEAR UNIT
與Sigmoids相比,像ReLU,ELU和PReLU這樣的激活可以使神經網絡更快更好地收斂。
此外,Dropout通過將一些激活數乘以0來規範化模型。
以上兩種方法共同決定了神經元的輸出。但是,兩者彼此獨立工作。GELU旨在將它們結合起來。
另外,稱爲Zoneout的新RNN正則化器將輸入隨機乘以1。
我們希望通過將輸入乘以0或1並確定性地獲得(激活函數的)輸出值來合併所有3個功能。
我們選擇這種分佈是因爲神經元的輸入遵循正態分佈,尤其是在批歸一化之後。
但是任何激活函數的輸出都應該是確定性的,而不是隨機的。因此,我們找到了轉換的期望值。
由於Φ(x)是高斯分佈的累積分佈,並且通常使用誤差函數進行計算,因此我們將高斯誤差線性單位(GELU)定義爲: