,由推出
1.定義熵是隨機變量不確定性的度量,不確定性越大,熵值越大,若隨機變量退化成定值,熵爲0。均勻分佈是“最不確定”的分佈
熵是定義了一個函數到一個值的映射。定義域是函數集,值域是值。有點泛函。
,舉個例子,如果是兩點分佈的時候,如果某個點概率爲0或爲1,則爲確定分佈,熵爲0,均勻分佈的時候熵爲最大。
2.聯合熵
聯合分佈的熵,
3.條件熵
Y發生的前提下,X發生的熵 ,
4.相對熵(又稱互熵、交叉熵、鑑別信息、Kullback熵、Kullback-Leible散度等)
p(x),q(x)是X中取值的兩個概率分佈,則p對q的相對熵是
5.互信息
定義爲,X,Y的聯合分佈和獨立分佈乘積的相對熵
,而 ,得出
再根據對偶
(給定一定條件後,就變得更確定,熵會更小)
6.最大熵模型的條件
承認已知,沒有偏見。概率平均分佈等價於熵最大。。給定均值和方差的話,則正太分佈的熵最大。
7.特徵和樣本
(x,y)。y:這個特徵中需要確定的信息;x:這個特徵彙總的上下文信息
樣本:關於某個特徵的樣本,特徵所描述的語法現象在標準集合裏的分佈 (xi,yi),xi是yi的上下文,yi是xi的實例。
特徵函數:對於一個特徵(x0,y0),則這個點值爲1,其他值爲0;
最大熵(條件熵)模型在NLP中的完整提法:NLP(自然語言處理)模型:
最優解形式Exponential:拉格朗日求偏導爲0
Maxent模型是對數線性模型,因爲包含指數函數,幾乎不可能有解析解。能不能建立一種逼近,構造函數,求其最大\最小值。
極大似然估計MLE:一般形式
MLE模型與條件熵具有相同的形式。
8.
熵:不確定度;最大熵模型:對不確定度的無偏分配;似然:與知識的吻合程度;最大似然估計:對知識的無偏理解;知識:不確定度的補集。
9.IIS的思想