PRML讀書隨筆——第2章 Probability Distribution 兩變量條件期望/方差、R-M序列算法、高斯分佈參數辨識/後驗推斷/相關分佈、指數族分佈、無參數先驗、無參數估計、kNN

2.2 Multinomial Variables

P74 兩變量的條件期望與條件方差

由Exercise2.8:考慮兩個變量xxyy,聯合概率分佈爲p(x,y)p(x,y). 那麼
E[x]=Ey[Ex[xy]], 這條較爲廣知var[x]=Ey[varx[xy]]+vary[Ex[xy]]. \mathbb{E}[x]=\mathbb{E}_y [\mathbb{E}_x[x|y]], \text{ 這條較爲廣知} \\ var[x]=\mathbb{E}_y[var_x[x|y]]+var_y[\mathbb{E}_x[x|y]].
這裏Ex[xy]\mathbb{E}_x[x|y]表示在條件分佈p(xy)p(x|y)下,xx的期望。條件方差記號類似。
所以可知
Eθ[θ]=ED[Eθ[θD]]varθ[θ]=ED[varθ[θD]]+varD[Eθ[θD]] \mathbb{E}_\theta[\theta]=\mathbb{E}_\mathcal{D} [\mathbb E_\theta[\theta|\mathcal D]] \\ var_\theta [\theta] = \mathbb E_\mathcal D [var_\theta [\theta | \mathcal D]] + var_\mathcal D [\mathbb E _\theta [\theta | \mathcal D]]
注意二式的右側,第一項爲θ\theta的後驗分佈方差的期望,第二項爲後驗分佈期望的方差。
其中,varD[Eθ[θD]]>0var_\mathcal D [\mathbb E _\theta [\theta | \mathcal D]] > 0,所以varθ[θ]>ED[varθ[θD]]var_\theta [\theta] > \mathbb E_\mathcal D [var_\theta [\theta | \mathcal D]]。也就是說觀測到數據後,θ\theta的不確定性會減小。不過這隻對平均而言成立。可以構造特殊的數據集,並讓θ\theta的後驗分佈的方差變大。
(疑問:這好像並不能證明card[D]card[\mathcal D]越大,不確定性越小。這裏猜測可以用類似方法證明,寫出兩個數據集D1\mathcal D_1D2\mathcal D_2D1\mathcal D_1放到兩側,D2\mathcal D_2放到右邊,構造一個類似上述的式子?有空試一波!)

2.3 The Gaussian Distribution

P86 高斯分佈的參數辨識

高斯分佈在給定形式後,如何看出參數μ\mu和方差Σ\Sigma,直接關注指數表達式即可:
12(xμ)TΣ1(xμ)=12xTΣ1x+xTΣ1μ+const -\frac{1}{2}(x-\mu)^T \Sigma^{-1} (x - \mu) = -\frac{1}{2}x^T \Sigma^{-1}x + x^T\Sigma^{-1}\mu+const
只要寫成這樣的形式,就能直接從二次項中讀出12Σ1\frac{1}{2}\Sigma^{-1},從一次項讀出Σ1μ\Sigma^{-1}\mu.
用這樣的方法,2.3.1節寫出當全變量爲高斯分佈時的條件分佈,2.3.2節給出了邊緣分佈,2.3.3節給出了線性高斯模型的邊緣分佈和條件分佈(即xN(xμ,Λ1)x \sim \mathcal{N}(x|\mu, \Lambda^{-1})yxN(yAx+b,L1)y|x \sim \mathcal{N}(y|Ax+b, L^{-1}),其中Λ=Σ1\Lambda=\Sigma^{-1}被稱爲精度矩陣Precision Matrix)

P94 序列估計

假定樣本是一個一個序列觀測的,記第NN次觀測後,均值估計爲μML(N)\mu_{ML}^{(N)},則易知
μML(N)=1Nn=1Nxn=μML(N1)+1N(xNμML(N1)) \mu_{ML}^{(N)} = \frac{1}{N}\sum_{n=1}^N x_n = \mu_{ML}^{(N-1)} + \frac{1}{N}(x_N - \mu_{ML}^{(N-1)})
上式可看作是對μ\mu的不斷修正。這裏考慮一個一般化的序列學習算法:

Robbins-Monro 算法

對於一對隨機變量θ\thetazz,並假定f(θ)=E[zθ]f(\theta)= \mathbb E[z|\theta]. 希望通過序列數據找到根θ\theta^*滿足f(θ)=0f(\theta ^*)=0.
假定zz的條件方差有限,即E[(zf)2θ]<\mathbb E[(z-f)^2|\theta] < \infty. 不失一般性,我們認爲θ>θ\theta > \theta^*時,f(θ)>0f(\theta) > 0θ<θ\theta < \theta^*時,f(θ)<0f(\theta) < 0. 則
θ(N)=θ(N1)+αN1z(θN1) \theta^{(N)} = \theta^{(N-1)}+\alpha_{N-1}z(\theta^{N-1})
其中z(θN)z(\theta^{N})是給定θN\theta^Nzz的觀測。
{αN}\{\alpha _N\}表示正數序列滿足
limNαN=0N=1αN=N=1αN2< \lim_{N\rightarrow \infty} \alpha_N = 0 \\ \sum_{N=1}^\infty \alpha_N = \infty \\ \sum_{N=1}^\infty \alpha_N^2 < \infty
上式會以概率爲1收斂到根。 第一項確保了修正項會收斂到一個有限值,第二項確保了不會對根欠收斂,第三項確保了累積噪聲的方差有限,所以不會破壞收斂。(這個算法在強化學習的搖臂賭博機中也用到了)

考慮一般的最大似然問題,參數θML\theta_{ML}是一個不動點,滿足θ{1Nn=1Nlnp(xnθ)}θML=0\frac{\partial}{\partial \theta} \left \{\frac{1}{N}\sum_{n=1}^N \ln p(x_n|\theta)\right \} \big|_{\theta_{ML}} = 0

NN \rightarrow \infty,上式即
limN1Nn=1Nθlnp(xnθ)=Ex[θlnp(xθ)] \lim_{N \rightarrow \infty} \frac{1}{N} \sum_{n=1}^N \frac{\partial}{\partial \theta}\ln p(x_n|\theta) = \mathbb{E}_x [\frac{\partial}{\partial \theta}\ln p(x|\theta) ]
注意這個形式,和Robbins-Monro的要求是一樣的,可以得到
θ(N)=θ(N1)+αN1θ(N1)lnp(xNθ(N1)) \theta^{(N)} = \theta^{(N-1)} + \alpha_{N-1} \frac{\partial}{\partial \theta^{(N-1)}}\ln p(x_N| \theta^{(N-1)})
zz可以看作是其中的θ(N1)lnp(xNθ(N1))\frac{\partial}{\partial \theta^{(N-1)}}\ln p(x_N| \theta^{(N-1)})
對於高斯分佈的均值估計μML(N)\mu_{ML}^{(N)},即z=1σ2(xμML)z=\frac{1}{\sigma^2}(x - \mu_{ML}),取αN=σ2N\alpha_N=\frac{\sigma^2}{N},則得到一致的更新公式。
在這裏插入圖片描述

P99 高斯分佈參數的貝葉斯估計

一般性序列估計

p(μD)[p(μ)n=1N1p(xnμ)]p(xNμ) p(\mu|D) \propto \left[ p(\mu) \prod_{n=1}^{N-1}p(x_n|\mu) \right] p(x_N|\mu)

上式括號中的項可以看作是讀入到第N1N-1個數據之後,得到的參數分佈,可以看作是第NN次的先驗分佈。

一維高斯分佈均值的後驗推斷

如果已知方差,不知道均值,假定μN(μμ0,σ02)\mu \sim \mathcal{N} (\mu|\mu_0, \sigma_0^2)xμN(xμ,σ)x|\mu \sim \mathcal{N} (x|\mu,\sigma),那麼由
p(μX)p(Xμ)p(μ) p(\mu|X) \propto p(X|\mu) p(\mu)

可得p(μX)=N(μμN,σN2)p(\mu|X) = \mathcal {N} (\mu|\mu_N, \sigma^2_N),其中

μN=σ2Nσ02+σ2μ0+Nσ02Nσ02+σ2μML1σN2=1σ02+Nσ2 \begin{aligned} \mu_N &= \frac{\sigma^2}{N\sigma_0^2+\sigma^2}\mu_0 + \frac{N \sigma_0^2}{N\sigma^2_0+\sigma^2}\mu_{ML} \\ \frac{1}{\sigma^2_N} &=\frac{1}{\sigma_0^2} + \frac{N}{\sigma^2} \end{aligned}
NNXX中樣本數,μML=1Nn=1Nxn\mu_{ML}=\frac{1}{N}\sum_{n=1}^N x_n.

這個式子很有趣

  • N=0N=0時,等同於先驗分佈
  • N=N=\infty時,等同於極大似然
  • 隨着NN增大時,方差越來越小,μ\mu越來越確定
  • σ02=\sigma^2_0=\infty時,等同於最大似然,方差很大意味着先驗沒有提供什麼穩定的信息
一維高斯分佈方差的後驗推斷 Gamma分佈

如果已知均值,不知道方差,採用精確度λ=1σ2\lambda=\frac{1}{\sigma^2}進行表示。高斯分佈的方差後驗爲:

p(Xλ)=n=1NN(xnμ,λ1)λN/2exp{λ2n=1N(xnμ)2} p(X|\lambda) = \prod_{n=1}^N \mathcal {N} (x_n| \mu, \lambda^{-1}) \propto \lambda^{N/2} exp \left\{ - \frac{\lambda}{2} \sum_{n=1}^N (x_n - \mu)^2 \right\}

注意,這種寫法下,對應的先驗共軛分佈其實是Gamma分佈!
Gam(λa,b)=1Γ(a)baλa1exp(bλ) Gam(\lambda |a,b) = \frac{1}{\Gamma(a)}b^a \lambda^{a-1} exp(-b\lambda)

如果記先驗爲Gam(λa0,b0)Gam(\lambda|a_0, b_0),則對應的後驗爲
p(λX)λa01λN/2exp{b0λλ2n=1N(xnμ)2} p(\lambda|X) \propto \lambda^{a_0 - 1} \lambda^{N/2} exp \left \{ -b_0 \lambda - \frac{\lambda}{2} \sum_{n=1}^{N}(x_n - \mu)^2 \right \}

從中可以辨識出分佈爲Gam(λaN,bN)Gam(\lambda| a_N, b_N)
aN=a0+N2bN=b0+12n=1N(xnμ)2=b0+N2σML2 \begin{aligned} a_N &= a_0 + \frac{N}{2} \\ b_N &= b_0 + \frac{1}{2}\sum_{n=1}^N (x_n - \mu)^2=b_0 + \frac{N}{2} \sigma^2_{ML} \end{aligned}

  • NN增大時,aNa_N增大,實際上,可以把a0a_0解釋成是已經有了的2a02a_0個先驗僞觀測,b0b_0解釋成是這2a02a_0個先驗觀測具有方差b0a0\frac{b_0}{a_0}
  • 如果直接估計σ2\sigma^2,而不是λ\lambda,那麼得到對應先驗分佈是Inverse Gamma 分佈
一維高斯分佈均值和方差聯合的後驗推斷 Gaussian-gamma分佈

如果方差和均值都不知道,那麼p(Xμ,λ)p(X|\mu,\lambda)的連乘可以寫成如下形式:
p(μλ)p(λ)N(μμ0,(βλ)1)Gam(λa,b) p(\mu|\lambda)p(\lambda) \propto \mathcal{N} (\mu|\mu_0, (\beta \lambda)^{-1})Gam(\lambda|a, b)
這也即共軛先驗的形式,該分佈叫做normal-gammaGaussian-gamma分佈

高維高斯分佈均值的後驗推斷

如果已知方差,不知道均值,這種情況下,均值仍然是高斯分佈。

高維高斯分佈方差的後驗推斷 Wishart分佈

如果已知均值,不知道方差,如果記精確度矩陣Λ=Σ1\Lambda = \Sigma^{-1},那麼Γ\Gamma的共軛先驗分佈爲Wishart分佈,這種分佈可以看作是Gamma分佈的高維推廣,就類似於Beta分佈和Dirichlet分佈的關係。表達式爲
W(ΛW,ν)=BΛ(νD1)/2exp{12Tr(W1Λ)} \mathcal{W} (\Lambda|W, \nu) = B|\Lambda|^{(\nu - D - 1) / 2}exp\left \{ -\frac{1}{2}Tr(W^{-1}\Lambda) \right\}
其中ν\nu是自由度,BB爲歸一化因子
B(W,ν)=Wν/2(2νD/2πD(D1)/4i=1DΓ(ν+1i2))1 B(W, \nu) = |W|^{-\nu / 2} \left(2^{\nu D / 2} \pi ^{D(D-1)/4} \prod_{i=1}^{D} \Gamma (\frac{\nu + 1 - i} {2}) \right) ^{-1}

如果直接對Σ\Sigma估計,而不是Λ\Lambda,則得到對應的共軛先驗爲Inverse Wishart分佈

高維高斯分佈均值和方差聯合的後驗推斷 Gaussian-Wishart分佈

如果方差和均值都不知道,那麼共軛先驗的形式爲:
p(μ,Λμ0,β,W,ν)=N(μμ0,(βΛ)1)W(ΛW,ν) p(\mu, \Lambda| \mu_0, \beta, W, \nu) = \mathcal {N} (\mu| \mu_0, (\beta\Lambda)^{-1}) \mathcal{W} (\Lambda|W, \nu)

稱之爲Normal-WishartGaussian-Wishart分佈。

P103 學生t分佈

如果一維高斯分佈方差先驗爲Gamma分佈,均值已知,則xx的邊緣分佈爲
p(xμ,a,b)=0N(xμ,τ1)Gam(τa,b)dτ=baΓ(a)(12π)1/2[b+(xμ)22]a1/2Γ(a+1/2) \begin{aligned} p(x|\mu, a,b ) &= \int_0^{\infty}\mathcal {N} (x | \mu, \tau^{-1})Gam(\tau|a,b)d\tau \\ &=\frac{b^a}{\Gamma(a)}\left(\frac{1}{2\pi}\right)^{1/2} \left [b+\frac{(x-\mu)^2}{2}\right]^{-a-1/2}\Gamma(a+1/2) \end{aligned}

如果記ν=2a,λ=a/b\nu=2a, \lambda=a/b,則上式化學生t分佈
St(xμ,λ,ν)=Γ(ν/2+1/2)Γ(ν/2)(λπν)1/2[1+λ(xμ)2ν]ν/21/2 St(x|\mu, \lambda, \nu) = \frac{\Gamma(\nu/2 + 1/2)}{\Gamma(\nu/2)} \left( \frac{\lambda}{\pi \nu}\right)^{1/2} \left[1+\frac{\lambda(x-\mu)^2}{\nu}\right] ^{-\nu/2 - 1/2}
λ\lambda有時稱爲t分佈的precision,ν\nu稱爲自由度。ν=1\nu=1時,退化爲Cauchy distribution; ν\nu \rightarrow \infty時,成爲高斯分佈N(xμ,λ1)\mathcal{N} (x| \mu, \lambda^{-1}).
在這裏插入圖片描述

  • 相比於高斯分佈,學生t分佈的一個優點抗離羣點robust,學生t分佈的尾巴比較厚,沒有高斯分佈那麼敏感。另外,如果一組數據,高斯分佈擬合得好,學生t分也能擬合好,因爲高斯分佈是學生t分佈的一個特例。如圖所示

在這裏插入圖片描述

如果再另η=τb/a\eta=\tau b/a,則學生t分佈又可寫爲
St(xμ,λ,ν)=0N(xμ,(ηλ)1)Gam(ην/2,ν/2)dη St(x|\mu, \lambda, \nu)=\int _0^\infty \mathcal{N} (x|\mu, (\eta \lambda)^{-1})Gam(\eta| \nu/2, \nu/2)d\eta
通過該形式,可以擴展出高維學生t分佈
St(xμ,Λ,ν)=0N(xμ,(ηΛ)1)Gam(ην/2,ν/2)dη=Γ(ν/2+D/2)Γ(ν/2)Λ1/2(πν)D/2[1+Δ2ν]ν/2D/2 \begin{aligned} St( x|\mu, \Lambda, \nu) &=\int _0^\infty \mathcal{N} (x|\mu, (\eta \Lambda)^{-1})Gam(\eta| \nu/2, \nu/2)d\eta \\ &= \frac{\Gamma(\nu/2 + D/2)}{\Gamma(\nu/2)} \frac{|\Lambda|^{1/2}}{(\pi \nu) ^{D/2}} \left[1+\frac{\Delta^2}{\nu}\right] ^{-\nu/2 - D/2} \end{aligned}

其中DD是維度, Δ2=(xμ)TΛ(xμ)\Delta^2=(x-\mu)^T\Lambda(x-\mu)

P107 von Mises 分佈

一個二維高斯分佈,關注其在以原點爲圓心的單位圓下的條件概率分佈,角度的分佈爲von Mises分佈(循環正態分佈)
p(θθ0,m)=12πI0(m)exp{mcos(θθ0)} p(\theta|\theta_0, m)=\frac{1}{2\pi I_0(m)} exp\{ m cos(\theta - \theta_0)\}
其中m=r0/σ2,r0=μ2,θ0=tan1(μy/μx)m = r_0/\sigma^2, r_0 = \left \| \mu \right \|_2,\theta_0=tan^{-1}(\mu_y/\mu_x),而
I0(m)=12π02πexp{mcosθ}dθI_0(m)=\frac{1}{2\pi} \int _0^{2\pi} exp \{m cos\theta\} d\theta
是歸一化因子。

在這裏插入圖片描述

  • mm變大時,von Mises分佈近似高斯分佈

2.4 The Exponential Family

P113 一般形式

p(xη)=h(x)g(η)exp{ηTu(x)} p(x|\eta) = h(x)g(\eta)exp\{ \eta^T u(x)\}

其中xx可以是一維或多維,也可以是離散或連續g(η)g(\eta)叫做natural parameters,可看作歸一化因子
實際上,本章中上述討論過的概率分佈都是指數族分佈的特例

P115 參數估計與充分統計量

考慮一般參數η\eta估計問題,最大似然得到
p(Xη)g(η)Nexp{ηTn=1Nu(xn)} p(X|\eta) \propto g(\eta)^Nexp \left\{ \eta^T \sum_{n=1}^N u(x_n) \right\}

對數求導後得到
lng(ηML)=1Nn=1Nu(xn) -\nabla \ln g(\eta_{ML}) = \frac{1}{N}\sum_{n=1}^N u(x_n)

  • 注意這裏nu(xn)\sum_n u(x_n)足夠計算η\eta,所以被稱爲充分統計量。例如對於Bernoulli分佈,僅需要保存{xn}\{x_n\}的和,對於高斯分佈,需要保存{xn},{xn2}\{x_n\}, \{x_n^2\}各自的和。
  • NN \rightarrow \infty時,右側變爲Ex[u(x)]\mathbb E _x[u(x)].

P117 共軛先驗

p(ηχ,ν)=f(χ,ν)g(η)νexp{νηTχ} p(\bm {\eta}| \bm \chi, \nu) = f(\bm\chi ,\nu)g(\bm\eta)^\nu exp\{ \nu \bm\eta^T\bm \chi\}
其中ff是一個歸一化因子,ggp(Xη)p(X|\eta)中形式一樣。易得後驗
p(ηX,χ,ν)g(η)ν+Nexp{ηT(n=1Nu(xn)+νχ)} p(\eta |\bf X, \bf \chi, \nu) \propto g(\eta)^{\nu + N} exp \left\{ \eta^T \left ( \sum_{n=1}^N \bf u(\bf x_n) + \nu \bf \chi \right )\right \}
其中ν\nu被看作是先驗僞觀測數,每一次觀測的統計量u(x)u(x)χ\chi

P117 無信息先驗

無信息先驗這個東西稍微抽象,偏貝葉斯思維。解決的問題是在無先驗時如何選擇先驗,選擇的思想是先驗要對後驗的影響最小。
如果沒有什麼信息,我們假定先驗是均勻分佈,這麼做存在兩個困難:

  • 在無限連續數域上發散。稱之爲反常先驗分佈。但如果後驗分佈是正常的,那麼可以使用這樣的分佈(稱之爲廣義先驗分佈)。例如高斯分佈,如果假定均值先驗是均勻分佈,只要觀測到一個數據點,那麼後驗就正常。
  • 如果另一個參數是該參數的非線性變換,那麼將不再是均勻分佈

(可以參考下這篇博客:感覺寫得很好!https://blog.csdn.net/weixin_41929524/article/details/80674219

尺度參數的無信息先驗分佈

如果一個分佈形式爲
p(xσ)=1σf(xσ) p(x|\sigma) = \frac{1}{\sigma} f (\frac{x}{\sigma})
其中σ>0\sigma > 0f(x)f(x)已經歸一化。
考慮y=cx,η=cσy=cx, \eta = c\sigma其中c>0c> 0. 那麼
p(yη)=1ηf(yη) p(y|\eta) = \frac{1}{\eta} f (\frac{y}{\eta})
xxyy的函數形式相同,所以η\etaσ\sigma應該有相同的先驗分佈,如果σ\sigma的先驗分佈爲πσ(σ)\pi_\sigma(\sigma),那麼
πη(η)=πσ(σ)dσdη=1cπσ(ηc)πη=πσ\begin{aligned} \pi_\eta(\eta) &= \pi_\sigma(\sigma) \left |\frac{d\sigma}{d\eta} \right|=\frac{1}{c}\pi_{\sigma} (\frac{\eta}{c}) \\ \pi_\eta &=\pi_\sigma \end{aligned}
η=c\eta=c,解得πη(η)=πη(1)η\pi_\eta(\eta)=\frac{\pi_\eta(1)}{\eta},取πη(1)=1\pi_\eta(1)=1,則先驗分佈爲1/η1/\eta.
這樣的一個例子是高斯分佈中的標準差
p(xσ)=σ1exp{(xσ)2} p(x|\sigma) = \sigma^{-1}exp \left \{ -\left (\frac{x}{\sigma} \right )^{2} \right \}
還有一種位置參數的無信息先驗分佈,可以看原書,推導出的結果是均勻分佈。

2.5 無參數概率密度估計

P122 核密度估計和近鄰方法

這種估計方法不明確給出概率分佈的表達式,而是通過數據進行感知。柱狀圖其實就是一種無參數的概率密度估計方法。

另外一種常用的p(x)p(x)估計方法是觀察xx的小鄰域。記NN爲總樣本數,KK爲小鄰域內樣本數,如果小鄰域足夠小,認爲小鄰域內概率不變,則有
p(x)=KNV p(x) = \frac{K}{NV}

這裏如果固定VV,則該方法爲核密度估計;如果固定NN,則爲近鄰估計,即找以xx爲中心包含KK個點的最小超球,當作VV.

P125 kNN算法的一種無參解釋

在近鄰方法當中,如果有多個類,則對於第Ck\mathcal C_k類,記樣本數爲NkN_k,小鄰域內有樣本數KkK_k,則
p(xCk)=KkNkVp(x)=KNVp(Ck)=NkN\begin{aligned} \\ p(x|\mathcal C_k) &= \frac{K_k}{N_kV} \\ p(x) &=\frac{K}{NV} \\ p(\mathcal C_k) &= \frac{N_k}{N} \end{aligned}
則後驗爲
p(Ckx)=p(xCk)p(Ck)p(x)=KkK p(\mathcal C_k|x) = \frac{p(x|\mathcal C_k)p(C_k)}{p(x)} = \frac{K_k}{K}
這樣,kNN分類就可以解釋爲是近鄰方法中,後驗概率最大的類別。

  • 1-NN分類器有一個很有趣的性質:當NN \rightarrow \infty時,分類錯誤率不會超過貝葉斯最優分類器錯誤率的兩倍
    • 最優分類器可以理解爲是看到了真實後驗分佈
    • 我記得這個性質是要求概率連續的
    • 可以參考西瓜書P226
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章