熵學習筆記

H(x)=\sum p(x)log_{_{a}}p(x),由Y^{n}\geq X推出

1.定義熵是隨機變量不確定性的度量,不確定性越大,熵值越大,若隨機變量退化成定值,熵爲0。均勻分佈是“最不確定”的分佈

熵是定義了一個函數到一個值的映射。定義域是函數集,值域是值。有點泛函。

H(x)=\sum p(x)ln(p(x)),舉個例子,如果是兩點分佈的時候,如果某個點概率爲0或爲1,則爲確定分佈,熵爲0,均勻分佈的時候熵爲最大。  

2.聯合熵

聯合分佈的熵,H(X,Y)=-\sum_{x,y}p(x,y)logp(x,y)

3.條件熵

Y發生的前提下,X發生的熵 ,H(X,Y)-H(Y)=-\sum p(x,y)logp(x|y)=H(X|Y)

4.相對熵(又稱互熵、交叉熵、鑑別信息、Kullback熵、Kullback-Leible散度等)

p(x),q(x)是X中取值的兩個概率分佈,則p對q的相對熵是

D(p||q)=-\sum_{a}p(x)log\frac{p(x)}{q(x)}=-E_{p(x)}log\frac{p(x)}{q(x)}

5.互信息

定義爲,X,Y的聯合分佈和獨立分佈乘積的相對熵

I(X,Y)=\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}

H(X)-I(X,Y)=H(X|Y),而 H(X|Y)= H(X,Y)-H(Y),得出I(X,Y)=H(X)+H(Y)-H(X,Y)

再根據對偶H(Y|X) = H(X,Y)-H(X)=H(Y)-I(X,Y)

H(X|Y)\leq H(X),H(Y|X)\leq H(Y)(給定一定條件後,就變得更確定,熵會更小)

6.最大熵模型的條件

承認已知,沒有偏見。概率平均分佈等價於熵最大。maxH(X|Y)= \sum p(x,y)logp(x|y)。給定均值和方差的話,則正太分佈的熵最大。

7.特徵和樣本

(x,y)。y:這個特徵中需要確定的信息;x:這個特徵彙總的上下文信息

樣本:關於某個特徵的樣本,特徵所描述的語法現象在標準集合裏的分佈 (xi,yi),xi是yi的上下文,yi是xi的實例。

特徵函數:對於一個特徵(x0,y0),則這個點值爲1,其他值爲0;

最大熵(條件熵)模型在NLP中的完整提法:NLP(自然語言處理)模型:p^{*}=argmaxH(Y|X)=-\sum p(x,y)logp(y|x)=\sum p(y|x)p(x)longp(y|x)

最優解形式Exponential:拉格朗日求偏導爲0

Maxent模型是對數線性模型,因爲包含指數函數,幾乎不可能有解析解。能不能建立一種逼近,構造函數,求其最大\最小值。

極大似然估計MLE:一般形式L_{p}=log(\prod p(x)^{p(x)})

MLE模型與條件熵具有相同的形式。

8.

熵:不確定度;最大熵模型:對不確定度的無偏分配;似然:與知識的吻合程度;最大似然估計:對知識的無偏理解;知識:不確定度的補集。

9.IIS的思想

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章