熵學習筆記

熵學習筆記

$H(x)=\sum p(x)log_{_{a}}p(x)$ ，由 $Y^{n}\geq X$ 推出

1.定義熵是隨機變量不確定性的度量，不確定性越大，熵值越大，若隨機變量退化成定值，熵爲0。均勻分佈是“最不確定”的分佈

熵是定義了一個函數到一個值的映射。定義域是函數集，值域是值。有點泛函。

$H(x)=\sum p(x)ln(p(x))$ ，舉個例子，如果是兩點分佈的時候，如果某個點概率爲0或爲1，則爲確定分佈，熵爲0，均勻分佈的時候熵爲最大。

2.聯合熵

聯合分佈的熵， $H(X,Y)=-\sum_{x,y}p(x,y)logp(x,y)$

3.條件熵

Y發生的前提下，X發生的熵 , $H(X,Y)-H(Y)=-\sum p(x,y)logp(x|y)=H(X|Y)$

4.相對熵（又稱互熵、交叉熵、鑑別信息、Kullback熵、Kullback-Leible散度等）

p(x),q(x)是X中取值的兩個概率分佈，則p對q的相對熵是

$D(p||q)=-\sum_{a}p(x)log\frac{p(x)}{q(x)}=-E_{p(x)}log\frac{p(x)}{q(x)}$

5.互信息

定義爲,X,Y的聯合分佈和獨立分佈乘積的相對熵

$I(X,Y)=\sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)}$

，而 ,得出

再根據對偶

$H(X|Y)\leq H(X),H(Y|X)\leq H(Y)$ （給定一定條件後，就變得更確定，熵會更小）

6.最大熵模型的條件

承認已知，沒有偏見。概率平均分佈等價於熵最大。 $maxH(X|Y)= \sum p(x,y)logp(x|y)$ 。給定均值和方差的話，則正太分佈的熵最大。

7.特徵和樣本

（x,y）。y:這個特徵中需要確定的信息；x:這個特徵彙總的上下文信息

樣本：關於某個特徵的樣本，特徵所描述的語法現象在標準集合裏的分佈（xi,yi）,xi是yi的上下文，yi是xi的實例。

特徵函數：對於一個特徵（x0,y0），則這個點值爲1，其他值爲0；

最大熵（條件熵）模型在NLP中的完整提法：NLP（自然語言處理）模型： $p^{*}=argmaxH(Y|X)=-\sum p(x,y)logp(y|x)=\sum p(y|x)p(x)longp(y|x)$

最優解形式Exponential:拉格朗日求偏導爲0

Maxent模型是對數線性模型，因爲包含指數函數，幾乎不可能有解析解。能不能建立一種逼近，構造函數，求其最大\最小值。

極大似然估計MLE：一般形式 $L_{p}=log(\prod p(x)^{p(x)})$

MLE模型與條件熵具有相同的形式。

熵：不確定度；最大熵模型：對不確定度的無偏分配；似然：與知識的吻合程度；最大似然估計：對知識的無偏理解；知識：不確定度的補集。

9.IIS的思想

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.