AdaBoost詳解

本博客內容摘自李航老師的《統計學習方法》，加以一些整理。

AdaBoost算法

假定給定一個二分類的訓練數據集：

T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}

其中，每個樣本點由實力和標記組成。實例

x_{i} \in X \subseteq R^{n}

(表示實數),標記

y_{i} \in Y = {- 1, + 1}

,即有兩種標籤的數據，用

{- 1, + 1}

來表示這兩種類別;

X

是實例空間，

Y

是標記集合。AdaBoost算法利用以下算法，從訓練數據中學習一系列弱分類器或基本分類器，並將這些弱分類器線性組合成一個強分類器。

AdaBoost描述:
輸入:訓練數據集 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}$ ，其中 $x_{i} \in X \subseteq R^{n}, y_{i} \in Y = {- 1, + 1}$ ;得到弱學習算法;
輸出:最終分類器 $G (x)$

算法步驟:

(1)初始化訓練數據的權值分佈

D_{1} = (w_{11}, . . ., w_{1 i}, . . ., w_{1 N}), w_{1 i} = \frac{1}{N}, i = 1, 2, . . ., N (2.1)

D是用來描述各樣本的權值分佈的。

(2)對 $m = 1, 2, . . ., M$ ， $m$ 表示迭代的次數
(a)使用具有權值分佈 $D_{m}$ 的訓練數據集學習，得到基本分類器:

G_{m} (x) : X ⟶ {- 1, + 1}

(b)計算

G_{m}

在訓練數據集上的分類誤差率

e_{m} = P (G_{m} (x_{i}) \neq y_{i}) = \sum_{i = 1}^{N} w_{m i} I (G_{m} \neq y_{i}) (2.2)

其中

I (G_{m} \neq y_{i}) = {0, 1}

，當分類正確時，等於0;分類錯誤時，等於1;

G_{m} (x_{i})

表示第

m

輪得到的弱分類器

G_{m}

對第

i

個樣本

x_{i}

的分類結果，

y_{i}

表示第

i

個樣本的真實類別。注意計算誤差率是用到了權重分佈 $D$ 中的 $w_{m}$ 。
(c) 計算

G_{m} (x)

的係數

α_{m} = \frac{1}{2} l o g \frac{1 - e_{m}}{e_{m}} (2.3)

這裏的對數是自然對數。可以發現，當錯誤率

e_{m}

越大時,

a_{m}

越小。這個參數將會用在集成階段。
(d)更新訓練數據集的權值分佈

D_{m + 1} = (w_{m + 1, 1}, . . ., w_{m + 1, i}, . . ., w_{m + 1, N}) (2.4)

w_{m + 1, i} = \frac{w_{m i}}{Z_{m}} e x p (- α_{m} y_{i} G_{m} (x_{i})), i = 1, 2, . . ., N (2.5)

這裏,

Z_{m}

是規範化因子，使得總的

w_{m + 1}

值和爲1.

Z_{m} = \sum_{i = 1}^{N} w_{m i} e x p (- α_{m} y_{i} G_{m} (x_{i})) (2.6)

它使得

D_{m + 1}

成爲一個概率分佈。

(3)構建基本分類器的線性組合

f (x) = \sum_{m = 1}^{M} α_{m} G_{m} (x) (2.7)

錯誤率越低的弱分類器對應的 $α$ 值越大，使其在表決中起較大的作用。
得到最終的分類器

G (x) = s i g n (f (x)) = s i g n (\sum_{m = 1}^{M} α_{m} G_{m} (x)) (2.8)

對AdaBoost算法作如下說明:
步驟(1)假設訓練數據集具有均勻的權值分佈，即每個訓練樣本在基本分類器的學習中作用相同，這一假設保證第1步能夠在原始數據上學習基本分類器 $G_{1} (x)$ .

步驟(2)AdaBoost反覆學習基本分類器，在每一輪 $m = 1, 2, . . ., M$ 順次地執行下列操作:
(a)使用當前分佈 $D_{m}$ 加權的訓練數據集，學習基本分類器 $G_{m} (x)$ .
(b)計算基本分類器 $G_{m} (x)$ 在加權訓練數據集上的分類錯誤率:

e_{m} = P (G_{m} (x_{i}) \neq y_{i}) = \sum_{G_{m} (x_{i}) \neq y_{i}} w_{m i} (2.9)

這裏,

w_{m i}

表示第

m

輪中第

i

個實例的權值，

\sum_{i = 1}^{N} w_{m i} = 1

.這表明，

G_{m} (x)

在加權的訓練數據集上的分類錯誤率是被

G_{m} (x)

誤分類樣本的權值之和，由此可以看出數據權值分佈

D_{m}

與基本分類器

G_{m} (x)

的分類錯誤率的關係。
(c)計算基本分類器

G_{m} (x)

的係數

α_{m}, α_{m}

表示

G_{m} (x)

在最終的分類器中的重要性。由式子(2.3)可知，當

e_{m} \leq \frac{1}{2}

時，

α_{m} \geq 0

，並且

α_{m}

伴隨着

e_{m}

的減小而增大，所以分類誤差率越小的基本分類器在最終分類器中的作用越大。
(d)更新訓練數據的權值分佈，爲下一輪作準備。式子(2.5)可以寫成：

w_{m + 1, i} = {\begin{cases} \frac{w_{m i}}{Z_{m}} e^{- α_{m}}, & G_{m} (x_{i}) = y_{i} \\ \frac{w_{m i}}{Z_{m}} e^{α_{m}}, & G_{m} (x_{i}) \neq y_{i} \end{cases}

由此可知，被基本分類器

G_{m} (x)

誤分類樣本的權值得以擴大，而被正確分類樣本的權值卻得以縮小。二者比較，誤分類樣本的權值被放大

e^{2 α_{m}} = \frac{e_{m}}{1 - e_{m}}

倍.因此，誤分類樣本在下一輪學習中起更大的作用。不改變所給的訓練數據，而不斷改變訓練數據的權值分佈，使得訓練數據在基本分類器的學習中起不同的作用，這是AdaBoost的一個特點。

步驟(3)線性組合 $f (x)$ 實現了 $M$ 個基本分類器的加權表決。係數 $α_{m}$ 表示了基本分類器 $G_{m} (x)$ 的重要性，這裏，所有 $α_{m}$ 之和並不爲1. $f (x)$ 的符號決定實例 $x$ 的類， $f (x)$ 的絕對值表示分類的確信度，利用基本分類器的線性組合構建最終分類器是AdaBoost的另一特點。

參考例子

注意，權值分佈是在計算錯誤率 $e$ 時起作用，公式(2.2)中。

相關概念

AdaBoost算法

參考例子

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

PCA解析

Python中list（列表）

關聯性挖掘--Apriori算法詳解

ELMo代碼詳解(一)：數據準備

支持向量機(SVM)推導

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結