機器學習-----信息-------熵

1.1什麼是信息

信息定義公式:   i(x) = -log( p(x) )

我們理解概率p是對某個事件確定性的度量,認爲信息是對某個事件不確定性的度量。

如果兩個事件X和Y獨立,即p(xy)=p(x)p(y) ,假定X和y的信息量分別爲i(x)和i(y),則二者同時發生的信息量應該爲i(x^y)=i(x)+i(y)。

1.2什麼是熵

熵是對平均不確定性的度量 。定義公式H(x) = -∑ p(x) log( p(x) )

1.3 聯合熵

1.4條件熵

1.5什麼是互信息

定義: i(y,x) = i(y) - i(y|x) = log( p(y|x) / p(y) ),表示一個隨機變量由於已知另一個隨機變量而減少的不確定性

互信息的對稱性
i(y,x) = i(y) - i(y|x) = log(p(y|x) / p(y))
=log( p(yx) / ( p(y)p(x) ) )  //同時乘與p(x)
=log( p(x|y) / p(x) )
=i(x) - i(x|y) = i(x,y)
=i(先驗事件) - i(後驗事件)

1.6平均互信息

平均互信息量(I(X;Y))是統計平均意義下的先驗不確定性與後驗不確定性之 差,是互信息量的統計平均:

                                                        

決策樹中的“信息增益”其實就是平均互信息I(X,Y)。

                                   

1.7交叉熵

交叉熵的概念用以衡量估計模型與真實概率分佈之間的差異。

             

1.8相對熵 (KL距離)

也是衡量兩個概率分佈的差異性

                            

1.9各個熵之間的關係

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章