決策樹介紹(一)信息熵和信息增益

信息熵和信息增益

  對決策樹有過初步瞭解的人對決策樹應該有個初步概念,決策樹就是將各種屬性根據在當前條件下,計算出劃分結果最有利的屬性,並將該屬性做爲劃分屬性,以此類推,直到所有的屬性都劃分完畢。其中如何確定該屬性對於劃分結果是最有利?這個需要用到信息熵的概念,即通過計算條件熵H(Y|X)(表示在已知隨機變量X的條件下隨機變量Y的不確定性),選擇不確定性最低的屬性做爲最優劃分屬性。

信息熵概念

  什麼是信息熵?信息熵是用來表示信息量大小的度量,即表示隨機變量不確定性的度量。類似於速度用來表示物體運動快慢的度量。那麼這個信息熵是如何計算的。因爲信息熵是信息量的平均值,我們先來看一下信息量的計算公式:
I(ai)=p(ai)log21p(ai)I(a_i)=p(a_i)log_2 \frac{1}{p(a_i)}

  • 其中P(ai)P (a_i)表示 aia_i事件發生的概率
    假設一個事件有n種結果,每種結果的概率爲P(X=xi)=pi,i=1,2,...,nP(X = x_i) = p_i, i = 1,2,...,n
    則該隨機變量X的熵定義爲:

I(a1,a2,...,an)=i=1nI(ai)=i=1np(ai)log21p(ai)I(a_1,a_2,...,a_n) = \sum ^{n}_{i=1}{I(a_i)} = \sum ^{n}_{i=1}{p(a_i)log_2 \frac{1}{p(a_i)}}

信息增益

對於熵的概念直觀理解,熵是熱力學裏面的概念,表示運動的不確定性,熵越大,不確定性不大,在這裏,熵同樣表示隨機變量的不確定性。
假設有隨機變量(X,Y),其聯合概率分佈爲:
P(X=xi,Y=yj)=pij,i=1,2,...,n;j=1,2,...,mP(X = x_i,Y = y_j) = p_{ij}, i = 1,2,...,n; j=1,2,...,m
條件熵H(Y|X):表示在已知隨機變量X的條件下隨機變量Y的不確定性,定義爲X給定條件下Y的條件概率分佈的熵對X的數學期望。
H(YX)=i=1npiH(YX=xi) H(Y|X) = \sum^{n}_{i=1}{p_i}H(Y|X = x_i)
信息增益:特徵A對訓練數據集D的信息增益,g(D,A),定義爲集合D的經驗熵H(D)與特徵A給定條件下D的經驗條件熵H(D|A)之差,即
g(D,A)=H(D)H(DA) g(D,A) = H(D) - H(D|A)
而在決策樹中我們將信息增益最大的屬性做爲最有屬性。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章