沒有激活函數,存在某個單層神經網絡等價於多層神經網絡的證明

給定一個小批量樣本\mathbf{X}\in \mathbb{R}^{n\times d },其批量大小爲n,輸入個數爲d。假設多層感知機只有一個隱藏層,其中隱藏單元個數爲h。記隱藏層的輸出(也稱爲隱藏層變量或隱藏變量)爲\boldsymbol{H},有\mathbf{H}\in \mathbb{R}^{n\times h }。因爲隱藏層和輸出層均是全連接層,可以設隱藏層的權重參數和偏差參數分別爲\mathbf{W}_h\in \mathbb{R}^{d\times h }和 \mathbf{b}_h\in \mathbb{R}^{1\times h },輸出層的權重和偏差參數分別爲\mathbf{W}_o\in \mathbb{R}^{h\times q }\mathbf{b}_o\in \mathbb{R}^{1\times q }

我們先來看一種含單隱藏層的多層感知機的設計。其輸出\mathbf{O}\in \mathbb{R}^{n\times q }的計算爲

\mathbf{H} =\mathbf{XW}_h +\mathbf{b}_h,

\mathbf{O} =\mathbf{HW}_o +\mathbf{b}_o

也就是將隱藏層的輸出直接作爲輸出層的輸入。如果將以上兩個式子聯立起來,可以得到

\mathbf{O} =\mathbf{HW}_o +\mathbf{b}_o = \mathbf{\left ( \mathbf{XW}_h +\mathbf{b}_h \right )W}_o +\mathbf{b}_o = \mathbf{XW}_h \mathbf{W}_o+\mathbf{b}_h\mathbf{W}_o +\mathbf{b}_o

從聯立後的式子可以看出,雖然神經網絡引入了隱藏層,卻依然等價於一個單層神經網絡:其中輸出層權重參數爲\mathbf{W}_h \mathbf{W}_o,偏差參數爲\mathbf{b}_h\mathbf{W}_o +\mathbf{b}_o。不難發現,即便再添加更多的隱藏層,以上設計依然只能與僅含輸出層的單層神經網絡等價。

reference

1.https://zh.d2l.ai/chapter_deep-learning-basics/mlp.html#

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章