1.1什麼是信息
信息定義公式: i(x) = -log( p(x) )
我們理解概率p是對某個事件確定性的度量,認爲信息是對某個事件不確定性的度量。
如果兩個事件X和Y獨立,即p(xy)=p(x)p(y) ,假定X和y的信息量分別爲i(x)和i(y),則二者同時發生的信息量應該爲i(x^y)=i(x)+i(y)。
1.2什麼是熵
熵是對平均不確定性的度量 。定義公式H(x) = -∑ p(x) log( p(x) )
1.3 聯合熵
1.4條件熵
1.5什麼是互信息
定義: i(y,x) = i(y) - i(y|x) = log( p(y|x) / p(y) ),表示一個隨機變量由於已知另一個隨機變量而減少的不確定性
互信息的對稱性
i(y,x) = i(y) - i(y|x) = log(p(y|x) / p(y))
=log( p(yx) / ( p(y)p(x) ) ) //同時乘與p(x)
=log( p(x|y) / p(x) )
=i(x) - i(x|y) = i(x,y)
=i(先驗事件) - i(後驗事件)
1.6平均互信息
平均互信息量(I(X;Y))是統計平均意義下的先驗不確定性與後驗不確定性之 差,是互信息量的統計平均:
決策樹中的“信息增益”其實就是平均互信息I(X,Y)。
1.7交叉熵
交叉熵的概念用以衡量估計模型與真實概率分佈之間的差異。
1.8相對熵 (KL距離)
也是衡量兩個概率分佈的差異性
1.9各個熵之間的關係