【機器學習】西瓜書集成學習的誤差-分歧分解公式推導

原創

Vincent__Lai

2020-06-19 07:21

前言

原文中，根據公式（8.28）寫出了集成的“分歧”定義爲：
$\overline A(h|x) = \sum\limits_{i=1}^{T}w_i(h_i(x)-H(x))^2$

結果在公式（8.31）突然變成，將分歧和誤差聯繫上了，看得我非常懵逼
$\overline A(h|x) = \sum\limits_{i=1}^{T}w_iE(h_i|x)-E(H|x)$

所以，本文主要解釋西瓜書第185頁公式（8.31）的第一行是怎麼來的

公式

首先，將公式（8.31）的第二行換個寫法，我們叫他爲公式（a），如果能夠證明公式（a）是正確的，那麼公式（8.31）的第一行也就是成立的：
$\overline E(h|x) -\overline A(h|x) = E(H|x)$

已知：
$\overline E(h|x) = \sum\limits_{i=1}^{T}w_i(f(x)-h_i(x))^2$
$\overline A(h|x) = \sum\limits_{i=1}^{T}w_i(h_i(x)-H(x))^2$

所以：

$\overline E(h|x) -\overline A(h|x)$ $

$= \sum\limits_{i=1}^{T}w_i(f(x)-h_i(x))^2 - \sum\limits_{i=1}^{T}w_i(h_i(x)-H(x))^2$

求和號 $\sum\limits_{i=1}^{T}$ 和權重 $w_i$ 提到前面，得：

$= \sum\limits_{i=1}^{T}w_i[(f(x)-h_i(x))^2 - (h_i(x)-H(x))^2]$

平方展開，得：

$= \sum\limits_{i=1}^{T}w_i[f(x)^2 + h_i(x)^2 - 2f(x)h_i(x) - h_i(x)^2 -H(x) ^2+2H(x)h_i(x)]$

$= \sum\limits_{i=1}^{T}w_i[f(x)^2 - 2f(x)h_i(x) -H(x)^2 +2H(x)h_i(x)]$

$= \sum\limits_{i=1}^{T}w_i[f(x)^2 + 2h_i(x)[H(x)-f(x)] -H(x)^2]$

將 $\sum\limits_{i=1}^{T}w_i$ 都乘進去，得：

$= \sum\limits_{i=1}^{T}w_if(x)^2 + 2\sum\limits_{i=1}^{T}w_ih_i(x)[H(x)-f(x)] -\sum\limits_{i=1}^{T}w_iH(x)^2$

因爲 $f(x)^2$ 和 $H(x)^2$ 均與 $i$ 無關，因此 $\sum\limits_{i=1}^{T}w_i=1$ ，得到下式，記爲公式（b）：

$= f(x)^2 + 2\sum\limits_{i=1}^{T}w_ih_i(x)[H(x)-f(x)] -H(x)^2$

在迴歸學習問題中，由西瓜書第182頁公式（8.23）可知：

$H(x) = \sum\limits_{i=1}^{T}w_ih_i(x)$

將公式（8.23）代入公式（b）中可得：

$= f(x)^2 + 2H(x)[H(x)-f(x)] -H(x)^2$

$= f(x)^2 + 2H(x)^2-2H(x)f(x)] -H(x)^2$

$= f(x)^2 -2H(x)f(x)+H(x)^2$

$= (f(x)-H(x))^2$

$= E(H|x)$

因此，下式成立：

$\overline E(h|x) -\overline A(h|x) = E(H|x)$

可得，下式也成立
$\overline A(h|x) = \overline E(h|x) - E(H|x)$

可得，下式也成立
$\overline A(h|x) = \sum\limits_{i=1}^{T}w_iE(h_i|x)-E(H|x)$
證畢。

收穫

（1）當沒有思路的時候，不妨取一些特殊情況找找思路，例如可設 $T=1$ ，這樣就可以把求和號 $\sum\limits_{i=1}^{T}$ 和權重 $w_i$ 都忽略掉：

將

$\sum\limits_{i=1}^{T}w_i[f(x)^2 + 2h_i(x)[H(x)-f(x)] -H(x)^2]$

變爲：

$f(x)^2 + 2h(x)[H(x)-f(x)] -H(x)^2$

因爲 $T=1$ ，所以 $H(x)=h(x)$ ，可得：

$f(x)^2 + 2H(x)[H(x)-f(x)] -H(x)^2$

$= f(x)^2 -2H(x)f(x)+H(x)^2$

$= (f(x)-H(x))^2$

$= E(H|x)$

這時候你會突然發現，噢，原文問題的關鍵就是在於，
如何將：

$f(x)^2 + 2h(x)[H(x)-f(x)] -H(x)^2$

變爲：

$f(x)^2 + 2H(x)[H(x)-f(x)] -H(x)^2$

關鍵又在於 $H(x)=h(x)$ ，但因爲之前有 $\sum\limits_{i=1}^{T}$ 和權重 $w_i$ 的干擾，所以你哪怕你知道 $H(x) = \sum\limits_{i=1}^{T}w_ih_i(x)$ ，但是如果你不把 $\sum\limits_{i=1}^{T}w_i$ 乘進去，你也不知道往下推導，所以取一些極端的列子，把干擾消除掉，就很明顯了

（2）另外一思路是，兩頭夾擊

我們的目標是得到 $\overline E(h|x) -\overline A(h|x) = E(H|x)$ 而：

$E(H|x)$

$= (f(x)-H(x))^2$

$= f(x)^2 -2H(x)f(x)+H(x)^2$

同時，我們從 $\overline E(h|x) -\overline A(h|x)$ 出發已經得到了：

$= \sum\limits_{i=1}^{T}w_i[f(x)^2 + 2h_i(x)[H(x)-f(x)] -H(x)^2]$

兩個式子對比一下就可以發現，關鍵就是要消去 $h_i(x)$ ，所以我們要找

$h_i(x)$ 與 $H(x)$ 的關係
$h_i(x)$ 與 $f(x)$ 的關係

顯然 $h_i(x)$ 與 $f(x)$ 是沒有關係的，同時我們發現
$H(x) = \sum\limits_{i=1}^{T}w_ih_i(x)$

所以可以把這個式子代進去嘗試，把 $h_i(x)$ 消去，那麼結果也就出來了

備註

由上面的推導可知，用到的是加權平均發 $H(x) = \sum\limits_{i=1}^{T}w_ih_i(x)$ ，因此這種分析方法只適用於迴歸學習（即數值型輸出）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【機器學習】西瓜書集成學習的誤差-分歧分解公式推導

前言

公式

收穫

備註

【Kaggle】參加競賽基本流程（以Titanic爲例）

【數學】通俗解釋布豐投針實驗過程及python仿真代碼

【機器學習】西瓜書集成學習的誤差-分歧分解公式推導

【Flask】搭建服務過程筆記

【自動駕駛】卡爾曼濾波直觀理解、數學公式及代碼理解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結