第2章 Probability Distribution
2.2 Multinomial Variables
P74 兩變量的條件期望與條件方差
由Exercise2.8:考慮兩個變量x和y,聯合概率分佈爲p(x,y). 那麼
E[x]=Ey[Ex[x∣y]], 這條較爲廣知var[x]=Ey[varx[x∣y]]+vary[Ex[x∣y]].
這裏Ex[x∣y]表示在條件分佈p(x∣y)下,x的期望。條件方差記號類似。
所以可知
Eθ[θ]=ED[Eθ[θ∣D]]varθ[θ]=ED[varθ[θ∣D]]+varD[Eθ[θ∣D]]
注意二式的右側,第一項爲θ的後驗分佈方差的期望,第二項爲後驗分佈期望的方差。
其中,varD[Eθ[θ∣D]]>0,所以varθ[θ]>ED[varθ[θ∣D]]。也就是說觀測到數據後,θ的不確定性會減小。不過這隻對平均而言成立。可以構造特殊的數據集,並讓θ的後驗分佈的方差變大。
(疑問:這好像並不能證明card[D]越大,不確定性越小。這裏猜測可以用類似方法證明,寫出兩個數據集D1和D2,D1放到兩側,D2放到右邊,構造一個類似上述的式子?有空試一波!)
2.3 The Gaussian Distribution
P86 高斯分佈的參數辨識
高斯分佈在給定形式後,如何看出參數μ和方差Σ,直接關注指數表達式即可:
−21(x−μ)TΣ−1(x−μ)=−21xTΣ−1x+xTΣ−1μ+const
只要寫成這樣的形式,就能直接從二次項中讀出21Σ−1,從一次項讀出Σ−1μ.
用這樣的方法,2.3.1節寫出當全變量爲高斯分佈時的條件分佈,2.3.2節給出了邊緣分佈,2.3.3節給出了線性高斯模型的邊緣分佈和條件分佈(即x∼N(x∣μ,Λ−1),y∣x∼N(y∣Ax+b,L−1),其中Λ=Σ−1被稱爲精度矩陣Precision Matrix)
P94 序列估計
假定樣本是一個一個序列觀測的,記第N次觀測後,均值估計爲μML(N),則易知
μML(N)=N1n=1∑Nxn=μML(N−1)+N1(xN−μML(N−1))
上式可看作是對μ的不斷修正。這裏考慮一個一般化的序列學習算法:
Robbins-Monro 算法
對於一對隨機變量θ和z,並假定f(θ)=E[z∣θ]. 希望通過序列數據找到根θ∗滿足f(θ∗)=0.
假定z的條件方差有限,即E[(z−f)2∣θ]<∞. 不失一般性,我們認爲θ>θ∗時,f(θ)>0;θ<θ∗時,f(θ)<0. 則
θ(N)=θ(N−1)+αN−1z(θN−1)
其中z(θN)是給定θN下z的觀測。
{αN}表示正數序列滿足
N→∞limαN=0N=1∑∞αN=∞N=1∑∞αN2<∞
上式會以概率爲1收斂到根。 第一項確保了修正項會收斂到一個有限值,第二項確保了不會對根欠收斂,第三項確保了累積噪聲的方差有限,所以不會破壞收斂。(這個算法在強化學習的搖臂賭博機中也用到了)
考慮一般的最大似然問題,參數θML是一個不動點,滿足∂θ∂{N1n=1∑Nlnp(xn∣θ)}∣∣θML=0
當N→∞,上式即
N→∞limN1n=1∑N∂θ∂lnp(xn∣θ)=Ex[∂θ∂lnp(x∣θ)]
注意這個形式,和Robbins-Monro的要求是一樣的,可以得到
θ(N)=θ(N−1)+αN−1∂θ(N−1)∂lnp(xN∣θ(N−1))
z可以看作是其中的∂θ(N−1)∂lnp(xN∣θ(N−1))。
對於高斯分佈的均值估計μML(N),即z=σ21(x−μML),取αN=Nσ2,則得到一致的更新公式。
P99 高斯分佈參數的貝葉斯估計
一般性序列估計
p(μ∣D)∝[p(μ)n=1∏N−1p(xn∣μ)]p(xN∣μ)
上式括號中的項可以看作是讀入到第N−1個數據之後,得到的參數分佈,可以看作是第N次的先驗分佈。
一維高斯分佈均值的後驗推斷
如果已知方差,不知道均值,假定μ∼N(μ∣μ0,σ02),x∣μ∼N(x∣μ,σ),那麼由
p(μ∣X)∝p(X∣μ)p(μ)
可得p(μ∣X)=N(μ∣μN,σN2),其中
μNσN21=Nσ02+σ2σ2μ0+Nσ02+σ2Nσ02μML=σ021+σ2N
N是X中樣本數,μML=N1∑n=1Nxn.
這個式子很有趣
- 當N=0時,等同於先驗分佈
- 當N=∞時,等同於極大似然
- 隨着N增大時,方差越來越小,μ越來越確定
- 當σ02=∞時,等同於最大似然,方差很大意味着先驗沒有提供什麼穩定的信息
一維高斯分佈方差的後驗推斷 Gamma分佈
如果已知均值,不知道方差,採用精確度λ=σ21進行表示。高斯分佈的方差後驗爲:
p(X∣λ)=n=1∏NN(xn∣μ,λ−1)∝λN/2exp{−2λn=1∑N(xn−μ)2}
注意,這種寫法下,對應的先驗共軛分佈其實是Gamma分佈!
Gam(λ∣a,b)=Γ(a)1baλa−1exp(−bλ)
如果記先驗爲Gam(λ∣a0,b0),則對應的後驗爲
p(λ∣X)∝λa0−1λN/2exp{−b0λ−2λn=1∑N(xn−μ)2}
從中可以辨識出分佈爲Gam(λ∣aN,bN)
aNbN=a0+2N=b0+21n=1∑N(xn−μ)2=b0+2NσML2
- 當N增大時,aN增大,實際上,可以把a0解釋成是已經有了的2a0個先驗僞觀測,b0解釋成是這2a0個先驗觀測具有方差a0b0
- 如果直接估計σ2,而不是λ,那麼得到對應先驗分佈是Inverse Gamma 分佈。
一維高斯分佈均值和方差聯合的後驗推斷 Gaussian-gamma分佈
如果方差和均值都不知道,那麼p(X∣μ,λ)的連乘可以寫成如下形式:
p(μ∣λ)p(λ)∝N(μ∣μ0,(βλ)−1)Gam(λ∣a,b)
這也即共軛先驗的形式,該分佈叫做normal-gamma或Gaussian-gamma分佈
高維高斯分佈均值的後驗推斷
如果已知方差,不知道均值,這種情況下,均值仍然是高斯分佈。
高維高斯分佈方差的後驗推斷 Wishart分佈
如果已知均值,不知道方差,如果記精確度矩陣Λ=Σ−1,那麼Γ的共軛先驗分佈爲Wishart分佈,這種分佈可以看作是Gamma分佈的高維推廣,就類似於Beta分佈和Dirichlet分佈的關係。表達式爲
W(Λ∣W,ν)=B∣Λ∣(ν−D−1)/2exp{−21Tr(W−1Λ)}
其中ν是自由度,B爲歸一化因子
B(W,ν)=∣W∣−ν/2(2νD/2πD(D−1)/4i=1∏DΓ(2ν+1−i))−1
如果直接對Σ估計,而不是Λ,則得到對應的共軛先驗爲Inverse Wishart分佈
高維高斯分佈均值和方差聯合的後驗推斷 Gaussian-Wishart分佈
如果方差和均值都不知道,那麼共軛先驗的形式爲:
p(μ,Λ∣μ0,β,W,ν)=N(μ∣μ0,(βΛ)−1)W(Λ∣W,ν)
稱之爲Normal-Wishart或Gaussian-Wishart分佈。
P103 學生t分佈
如果一維高斯分佈方差先驗爲Gamma分佈,均值已知,則x的邊緣分佈爲
p(x∣μ,a,b)=∫0∞N(x∣μ,τ−1)Gam(τ∣a,b)dτ=Γ(a)ba(2π1)1/2[b+2(x−μ)2]−a−1/2Γ(a+1/2)
如果記ν=2a,λ=a/b,則上式化學生t分佈
St(x∣μ,λ,ν)=Γ(ν/2)Γ(ν/2+1/2)(πνλ)1/2[1+νλ(x−μ)2]−ν/2−1/2
λ有時稱爲t分佈的precision,ν稱爲自由度。ν=1時,退化爲Cauchy distribution; ν→∞時,成爲高斯分佈N(x∣μ,λ−1).
- 相比於高斯分佈,學生t分佈的一個優點抗離羣點robust,學生t分佈的尾巴比較厚,沒有高斯分佈那麼敏感。另外,如果一組數據,高斯分佈擬合得好,學生t分也能擬合好,因爲高斯分佈是學生t分佈的一個特例。如圖所示
如果再另η=τb/a,則學生t分佈又可寫爲
St(x∣μ,λ,ν)=∫0∞N(x∣μ,(ηλ)−1)Gam(η∣ν/2,ν/2)dη
通過該形式,可以擴展出高維學生t分佈
St(x∣μ,Λ,ν)=∫0∞N(x∣μ,(ηΛ)−1)Gam(η∣ν/2,ν/2)dη=Γ(ν/2)Γ(ν/2+D/2)(πν)D/2∣Λ∣1/2[1+νΔ2]−ν/2−D/2
其中D是維度, Δ2=(x−μ)TΛ(x−μ)
P107 von Mises 分佈
一個二維高斯分佈,關注其在以原點爲圓心的單位圓下的條件概率分佈,角度的分佈爲von Mises分佈(循環正態分佈)
p(θ∣θ0,m)=2πI0(m)1exp{mcos(θ−θ0)}
其中m=r0/σ2,r0=∥μ∥2,θ0=tan−1(μy/μx),而
I0(m)=2π1∫02πexp{mcosθ}dθ
是歸一化因子。
- 當m變大時,von Mises分佈近似高斯分佈
2.4 The Exponential Family
P113 一般形式
p(x∣η)=h(x)g(η)exp{ηTu(x)}
其中x可以是一維或多維,也可以是離散或連續。g(η)叫做natural parameters,可看作歸一化因子
實際上,本章中上述討論過的概率分佈都是指數族分佈的特例。
P115 參數估計與充分統計量
考慮一般參數η估計問題,最大似然得到
p(X∣η)∝g(η)Nexp{ηTn=1∑Nu(xn)}
對數求導後得到
−∇lng(ηML)=N1n=1∑Nu(xn)
- 注意這裏∑nu(xn)足夠計算η,所以被稱爲充分統計量。例如對於Bernoulli分佈,僅需要保存{xn}的和,對於高斯分佈,需要保存{xn},{xn2}各自的和。
- 當N→∞時,右側變爲Ex[u(x)].
P117 共軛先驗
p(η∣χ,ν)=f(χ,ν)g(η)νexp{νηTχ}
其中f是一個歸一化因子,g和p(X∣η)中形式一樣。易得後驗
p(η∣X,χ,ν)∝g(η)ν+Nexp{ηT(n=1∑Nu(xn)+νχ)}
其中ν被看作是先驗僞觀測數,每一次觀測的統計量u(x)爲χ
P117 無信息先驗
無信息先驗這個東西稍微抽象,偏貝葉斯思維。解決的問題是在無先驗時如何選擇先驗,選擇的思想是先驗要對後驗的影響最小。
如果沒有什麼信息,我們假定先驗是均勻分佈,這麼做存在兩個困難:
- 在無限連續數域上發散。稱之爲反常先驗分佈。但如果後驗分佈是正常的,那麼可以使用這樣的分佈(稱之爲廣義先驗分佈)。例如高斯分佈,如果假定均值先驗是均勻分佈,只要觀測到一個數據點,那麼後驗就正常。
- 如果另一個參數是該參數的非線性變換,那麼將不再是均勻分佈
(可以參考下這篇博客:感覺寫得很好!https://blog.csdn.net/weixin_41929524/article/details/80674219)
尺度參數的無信息先驗分佈
如果一個分佈形式爲
p(x∣σ)=σ1f(σx)
其中σ>0,f(x)已經歸一化。
考慮y=cx,η=cσ其中c>0. 那麼
p(y∣η)=η1f(ηy)
x和y的函數形式相同,所以η和σ應該有相同的先驗分佈,如果σ的先驗分佈爲πσ(σ),那麼
πη(η)πη=πσ(σ)∣∣∣∣dηdσ∣∣∣∣=c1πσ(cη)=πσ
取η=c,解得πη(η)=ηπη(1),取πη(1)=1,則先驗分佈爲1/η.
這樣的一個例子是高斯分佈中的標準差
p(x∣σ)=σ−1exp{−(σx)2}
還有一種位置參數的無信息先驗分佈,可以看原書,推導出的結果是均勻分佈。
2.5 無參數概率密度估計
P122 核密度估計和近鄰方法
這種估計方法不明確給出概率分佈的表達式,而是通過數據進行感知。柱狀圖其實就是一種無參數的概率密度估計方法。
另外一種常用的p(x)估計方法是觀察x的小鄰域。記N爲總樣本數,K爲小鄰域內樣本數,如果小鄰域足夠小,認爲小鄰域內概率不變,則有
p(x)=NVK
這裏如果固定V,則該方法爲核密度估計;如果固定N,則爲近鄰估計,即找以x爲中心包含K個點的最小超球,當作V.
P125 kNN算法的一種無參解釋
在近鄰方法當中,如果有多個類,則對於第Ck類,記樣本數爲Nk,小鄰域內有樣本數Kk,則
p(x∣Ck)p(x)p(Ck)=NkVKk=NVK=NNk
則後驗爲
p(Ck∣x)=p(x)p(x∣Ck)p(Ck)=KKk
這樣,kNN分類就可以解釋爲是近鄰方法中,後驗概率最大的類別。
- 1-NN分類器有一個很有趣的性質:當N→∞時,分類錯誤率不會超過貝葉斯最優分類器錯誤率的兩倍
- 最優分類器可以理解爲是看到了真實後驗分佈
- (我記得這個性質是要求概率連續的)
- 可以參考西瓜書P226