前言
原文中,根據公式(8.28)寫出了集成的“分歧”定義爲:
A(h∣x)=i=1∑Twi(hi(x)−H(x))2
結果在公式(8.31)突然變成,將分歧和誤差聯繫上了,看得我非常懵逼
A(h∣x)=i=1∑TwiE(hi∣x)−E(H∣x)
所以,本文主要解釋西瓜書第185頁公式(8.31)的第一行是怎麼來的
公式
首先,將公式(8.31)的第二行換個寫法,我們叫他爲公式(a),如果能夠證明公式(a)是正確的,那麼公式(8.31)的第一行也就是成立的:
E(h∣x)−A(h∣x)=E(H∣x)
已知:
E(h∣x)=i=1∑Twi(f(x)−hi(x))2
A(h∣x)=i=1∑Twi(hi(x)−H(x))2
所以:
E(h∣x)−A(h∣x)$
=i=1∑Twi(f(x)−hi(x))2−i=1∑Twi(hi(x)−H(x))2
求和號i=1∑T和權重wi提到前面,得:
=i=1∑Twi[(f(x)−hi(x))2−(hi(x)−H(x))2]
平方展開,得:
=i=1∑Twi[f(x)2+hi(x)2−2f(x)hi(x)−hi(x)2−H(x)2+2H(x)hi(x)]
=i=1∑Twi[f(x)2−2f(x)hi(x)−H(x)2+2H(x)hi(x)]
=i=1∑Twi[f(x)2+2hi(x)[H(x)−f(x)]−H(x)2]
將i=1∑Twi都乘進去,得:
=i=1∑Twif(x)2+2i=1∑Twihi(x)[H(x)−f(x)]−i=1∑TwiH(x)2
因爲f(x)2和H(x)2均與i無關,因此i=1∑Twi=1,得到下式,記爲公式(b):
=f(x)2+2i=1∑Twihi(x)[H(x)−f(x)]−H(x)2
在迴歸學習問題中,由西瓜書第182頁公式(8.23)可知:
H(x)=i=1∑Twihi(x)
將公式(8.23)代入公式(b)中可得:
=f(x)2+2H(x)[H(x)−f(x)]−H(x)2
=f(x)2+2H(x)2−2H(x)f(x)]−H(x)2
=f(x)2−2H(x)f(x)+H(x)2
=(f(x)−H(x))2
=E(H∣x)
因此,下式成立:
E(h∣x)−A(h∣x)=E(H∣x)
可得,下式也成立
A(h∣x)=E(h∣x)−E(H∣x)
可得,下式也成立
A(h∣x)=i=1∑TwiE(hi∣x)−E(H∣x)
證畢。
收穫
(1)當沒有思路的時候,不妨取一些特殊情況找找思路,例如可設T=1,這樣就可以把求和號i=1∑T和權重wi都忽略掉:
將
i=1∑Twi[f(x)2+2hi(x)[H(x)−f(x)]−H(x)2]
變爲:
f(x)2+2h(x)[H(x)−f(x)]−H(x)2
因爲T=1,所以H(x)=h(x),可得:
f(x)2+2H(x)[H(x)−f(x)]−H(x)2
=f(x)2−2H(x)f(x)+H(x)2
=(f(x)−H(x))2
=E(H∣x)
這時候你會突然發現,噢,原文問題的關鍵就是在於,
如何將:
f(x)2+2h(x)[H(x)−f(x)]−H(x)2
變爲:
f(x)2+2H(x)[H(x)−f(x)]−H(x)2
關鍵又在於H(x)=h(x),但因爲之前有i=1∑T和權重wi的干擾,所以你哪怕你知道H(x)=i=1∑Twihi(x),但是如果你不把i=1∑Twi乘進去,你也不知道往下推導,所以取一些極端的列子,把干擾消除掉,就很明顯了
(2)另外一思路是,兩頭夾擊
我們的目標是得到E(h∣x)−A(h∣x)=E(H∣x)而:
E(H∣x)
=(f(x)−H(x))2
=f(x)2−2H(x)f(x)+H(x)2
同時,我們從E(h∣x)−A(h∣x)出發已經得到了:
=i=1∑Twi[f(x)2+2hi(x)[H(x)−f(x)]−H(x)2]
兩個式子對比一下就可以發現,關鍵就是要消去hi(x),所以我們要找
- hi(x)與H(x)的關係
- hi(x)與f(x)的關係
顯然hi(x)與f(x)是沒有關係的,同時我們發現
H(x)=i=1∑Twihi(x)
所以可以把這個式子代進去嘗試,把hi(x)消去,那麼結果也就出來了
備註
由上面的推導可知,用到的是加權平均發H(x)=i=1∑Twihi(x),因此這種分析方法只適用於迴歸學習(即數值型輸出)