第2章 Probability Distribution

2.2 Multinomial Variables

P74 兩變量的條件期望與條件方差

由Exercise2.8：考慮兩個變量 $x$ 和 $y$ ，聯合概率分佈爲 $p(x,y)$ . 那麼
$\mathbb{E}[x]=\mathbb{E}_y [\mathbb{E}_x[x|y]], \text{ 這條較爲廣知} \\ var[x]=\mathbb{E}_y[var_x[x|y]]+var_y[\mathbb{E}_x[x|y]].$
這裏 $\mathbb{E}_x[x|y]$ 表示在條件分佈 $p(x|y)$ 下， $x$ 的期望。條件方差記號類似。
所以可知
$\mathbb{E}_\theta[\theta]=\mathbb{E}_\mathcal{D} [\mathbb E_\theta[\theta|\mathcal D]] \\ var_\theta [\theta] = \mathbb E_\mathcal D [var_\theta [\theta | \mathcal D]] + var_\mathcal D [\mathbb E _\theta [\theta | \mathcal D]]$
注意二式的右側，第一項爲 $\theta$ 的後驗分佈方差的期望，第二項爲後驗分佈期望的方差。
其中， $var_\mathcal D [\mathbb E _\theta [\theta | \mathcal D]] > 0$ ，所以 $var_\theta [\theta] > \mathbb E_\mathcal D [var_\theta [\theta | \mathcal D]]$ 。也就是說觀測到數據後， $\theta$ 的不確定性會減小。不過這隻對平均而言成立。可以構造特殊的數據集，並讓 $\theta$ 的後驗分佈的方差變大。
（疑問：這好像並不能證明 $card[\mathcal D]$ 越大，不確定性越小。這裏猜測可以用類似方法證明，寫出兩個數據集 $\mathcal D_1$ 和 $\mathcal D_2$ ， $\mathcal D_1$ 放到兩側， $\mathcal D_2$ 放到右邊，構造一個類似上述的式子？有空試一波！）

2.3 The Gaussian Distribution

P86 高斯分佈的參數辨識

高斯分佈在給定形式後，如何看出參數 $\mu$ 和方差 $\Sigma$ ，直接關注指數表達式即可：
$-\frac{1}{2}(x-\mu)^T \Sigma^{-1} (x - \mu) = -\frac{1}{2}x^T \Sigma^{-1}x + x^T\Sigma^{-1}\mu+const$
只要寫成這樣的形式，就能直接從二次項中讀出 $\frac{1}{2}\Sigma^{-1}$ ，從一次項讀出 $\Sigma^{-1}\mu$ .
用這樣的方法，2.3.1節寫出當全變量爲高斯分佈時的條件分佈，2.3.2節給出了邊緣分佈，2.3.3節給出了線性高斯模型的邊緣分佈和條件分佈(即 $x \sim \mathcal{N}(x|\mu, \Lambda^{-1})$ ， $y|x \sim \mathcal{N}(y|Ax+b, L^{-1})$ ，其中 $\Lambda=\Sigma^{-1}$ 被稱爲精度矩陣Precision Matrix）

P94 序列估計

假定樣本是一個一個序列觀測的，記第 $N$ 次觀測後，均值估計爲 $\mu_{ML}^{(N)}$ ，則易知
$\mu_{ML}^{(N)} = \frac{1}{N}\sum_{n=1}^N x_n = \mu_{ML}^{(N-1)} + \frac{1}{N}(x_N - \mu_{ML}^{(N-1)})$
上式可看作是對 $\mu$ 的不斷修正。這裏考慮一個一般化的序列學習算法：

Robbins-Monro 算法

對於一對隨機變量 $\theta$ 和 $z$ ，並假定 $f(\theta)= \mathbb E[z|\theta]$ . 希望通過序列數據找到根 $\theta^*$ 滿足 $f(\theta ^*)=0$ .
假定 $z$ 的條件方差有限，即 $\mathbb E[(z-f)^2|\theta] < \infty$ . 不失一般性，我們認爲 $\theta > \theta^*$ 時， $f(\theta) > 0$ ； $\theta < \theta^*$ 時， $f(\theta) < 0$ . 則
$\theta^{(N)} = \theta^{(N-1)}+\alpha_{N-1}z(\theta^{N-1})$
其中 $z(\theta^{N})$ 是給定 $\theta^N$ 下 $z$ 的觀測。
$\{\alpha _N\}$ 表示正數序列滿足
$\lim_{N\rightarrow \infty} \alpha_N = 0 \\ \sum_{N=1}^\infty \alpha_N = \infty \\ \sum_{N=1}^\infty \alpha_N^2 < \infty$
上式會以概率爲1收斂到根。第一項確保了修正項會收斂到一個有限值，第二項確保了不會對根欠收斂，第三項確保了累積噪聲的方差有限，所以不會破壞收斂。（這個算法在強化學習的搖臂賭博機中也用到了）

考慮一般的最大似然問題，參數 $\theta_{ML}$ 是一個不動點，滿足 $\frac{\partial}{\partial \theta} \left \{\frac{1}{N}\sum_{n=1}^N \ln p(x_n|\theta)\right \} \big|_{\theta_{ML}} = 0$

當 $N \rightarrow \infty$ ，上式即
$\lim_{N \rightarrow \infty} \frac{1}{N} \sum_{n=1}^N \frac{\partial}{\partial \theta}\ln p(x_n|\theta) = \mathbb{E}_x [\frac{\partial}{\partial \theta}\ln p(x|\theta) ]$
注意這個形式，和Robbins-Monro的要求是一樣的，可以得到
$\theta^{(N)} = \theta^{(N-1)} + \alpha_{N-1} \frac{\partial}{\partial \theta^{(N-1)}}\ln p(x_N| \theta^{(N-1)})$
$z$ 可以看作是其中的 $\frac{\partial}{\partial \theta^{(N-1)}}\ln p(x_N| \theta^{(N-1)})$ 。
對於高斯分佈的均值估計 $\mu_{ML}^{(N)}$ ，即 $z=\frac{1}{\sigma^2}(x - \mu_{ML})$ ，取 $\alpha_N=\frac{\sigma^2}{N}$ ，則得到一致的更新公式。

P99 高斯分佈參數的貝葉斯估計

一般性序列估計

$p(\mu|D) \propto \left[ p(\mu) \prod_{n=1}^{N-1}p(x_n|\mu) \right] p(x_N|\mu)$

上式括號中的項可以看作是讀入到第 $N-1$ 個數據之後，得到的參數分佈，可以看作是第 $N$ 次的先驗分佈。

一維高斯分佈均值的後驗推斷

如果已知方差，不知道均值，假定 $\mu \sim \mathcal{N} (\mu|\mu_0, \sigma_0^2)$ ， $x|\mu \sim \mathcal{N} (x|\mu,\sigma)$ ，那麼由
$p(\mu|X) \propto p(X|\mu) p(\mu)$

可得 $p(\mu|X) = \mathcal {N} (\mu|\mu_N, \sigma^2_N)$ ，其中

$\begin{aligned} \mu_N &= \frac{\sigma^2}{N\sigma_0^2+\sigma^2}\mu_0 + \frac{N \sigma_0^2}{N\sigma^2_0+\sigma^2}\mu_{ML} \\ \frac{1}{\sigma^2_N} &=\frac{1}{\sigma_0^2} + \frac{N}{\sigma^2} \end{aligned}$
$N$ 是 $X$ 中樣本數， $\mu_{ML}=\frac{1}{N}\sum_{n=1}^N x_n$ .

這個式子很有趣

當 $N=0$ 時，等同於先驗分佈
當 $N=\infty$ 時，等同於極大似然
隨着 $N$ 增大時，方差越來越小， $\mu$ 越來越確定
當 $\sigma^2_0=\infty$ 時，等同於最大似然，方差很大意味着先驗沒有提供什麼穩定的信息

一維高斯分佈方差的後驗推斷 Gamma分佈

如果已知均值，不知道方差，採用精確度 $\lambda=\frac{1}{\sigma^2}$ 進行表示。高斯分佈的方差後驗爲：

$p(X|\lambda) = \prod_{n=1}^N \mathcal {N} (x_n| \mu, \lambda^{-1}) \propto \lambda^{N/2} exp \left\{ - \frac{\lambda}{2} \sum_{n=1}^N (x_n - \mu)^2 \right\}$

注意，這種寫法下，對應的先驗共軛分佈其實是Gamma分佈！
$Gam(\lambda |a,b) = \frac{1}{\Gamma(a)}b^a \lambda^{a-1} exp(-b\lambda)$

如果記先驗爲 $Gam(\lambda|a_0, b_0)$ ，則對應的後驗爲
$p(\lambda|X) \propto \lambda^{a_0 - 1} \lambda^{N/2} exp \left \{ -b_0 \lambda - \frac{\lambda}{2} \sum_{n=1}^{N}(x_n - \mu)^2 \right \}$

從中可以辨識出分佈爲 $Gam(\lambda| a_N, b_N)$
$\begin{aligned} a_N &= a_0 + \frac{N}{2} \\ b_N &= b_0 + \frac{1}{2}\sum_{n=1}^N (x_n - \mu)^2=b_0 + \frac{N}{2} \sigma^2_{ML} \end{aligned}$

當 $N$ 增大時， $a_N$ 增大，實際上，可以把 $a_0$ 解釋成是已經有了的 $2a_0$ 個先驗僞觀測， $b_0$ 解釋成是這 $2a_0$ 個先驗觀測具有方差 $\frac{b_0}{a_0}$
如果直接估計 $\sigma^2$ ，而不是 $\lambda$ ，那麼得到對應先驗分佈是Inverse Gamma 分佈。

一維高斯分佈均值和方差聯合的後驗推斷 Gaussian-gamma分佈

如果方差和均值都不知道，那麼 $p(X|\mu,\lambda)$ 的連乘可以寫成如下形式：
$p(\mu|\lambda)p(\lambda) \propto \mathcal{N} (\mu|\mu_0, (\beta \lambda)^{-1})Gam(\lambda|a, b)$
這也即共軛先驗的形式，該分佈叫做normal-gamma或Gaussian-gamma分佈

高維高斯分佈均值的後驗推斷

如果已知方差，不知道均值，這種情況下，均值仍然是高斯分佈。

高維高斯分佈方差的後驗推斷 Wishart分佈

如果已知均值，不知道方差，如果記精確度矩陣 $\Lambda = \Sigma^{-1}$ ，那麼 $\Gamma$ 的共軛先驗分佈爲Wishart分佈，這種分佈可以看作是Gamma分佈的高維推廣，就類似於Beta分佈和Dirichlet分佈的關係。表達式爲
$\mathcal{W} (\Lambda|W, \nu) = B|\Lambda|^{(\nu - D - 1) / 2}exp\left \{ -\frac{1}{2}Tr(W^{-1}\Lambda) \right\}$
其中 $\nu$ 是自由度， $B$ 爲歸一化因子
$B(W, \nu) = |W|^{-\nu / 2} \left(2^{\nu D / 2} \pi ^{D(D-1)/4} \prod_{i=1}^{D} \Gamma (\frac{\nu + 1 - i} {2}) \right) ^{-1}$

如果直接對 $\Sigma$ 估計，而不是 $\Lambda$ ，則得到對應的共軛先驗爲Inverse Wishart分佈

高維高斯分佈均值和方差聯合的後驗推斷 Gaussian-Wishart分佈

如果方差和均值都不知道，那麼共軛先驗的形式爲：
$p(\mu, \Lambda| \mu_0, \beta, W, \nu) = \mathcal {N} (\mu| \mu_0, (\beta\Lambda)^{-1}) \mathcal{W} (\Lambda|W, \nu)$

稱之爲Normal-Wishart或Gaussian-Wishart分佈。

P103 學生t分佈

如果一維高斯分佈方差先驗爲Gamma分佈，均值已知，則 $x$ 的邊緣分佈爲
$\begin{aligned} p(x|\mu, a,b ) &= \int_0^{\infty}\mathcal {N} (x | \mu, \tau^{-1})Gam(\tau|a,b)d\tau \\ &=\frac{b^a}{\Gamma(a)}\left(\frac{1}{2\pi}\right)^{1/2} \left [b+\frac{(x-\mu)^2}{2}\right]^{-a-1/2}\Gamma(a+1/2) \end{aligned}$

如果記 $\nu=2a, \lambda=a/b$ ，則上式化學生t分佈
$St(x|\mu, \lambda, \nu) = \frac{\Gamma(\nu/2 + 1/2)}{\Gamma(\nu/2)} \left( \frac{\lambda}{\pi \nu}\right)^{1/2} \left[1+\frac{\lambda(x-\mu)^2}{\nu}\right] ^{-\nu/2 - 1/2}$
$\lambda$ 有時稱爲t分佈的precision， $\nu$ 稱爲自由度。 $\nu=1$ 時，退化爲Cauchy distribution; $\nu \rightarrow \infty$ 時，成爲高斯分佈 $\mathcal{N} (x| \mu, \lambda^{-1})$ .

相比於高斯分佈，學生t分佈的一個優點抗離羣點robust，學生t分佈的尾巴比較厚，沒有高斯分佈那麼敏感。另外，如果一組數據，高斯分佈擬合得好，學生t分也能擬合好，因爲高斯分佈是學生t分佈的一個特例。如圖所示

如果再另 $\eta=\tau b/a$ ，則學生t分佈又可寫爲
$St(x|\mu, \lambda, \nu)=\int _0^\infty \mathcal{N} (x|\mu, (\eta \lambda)^{-1})Gam(\eta| \nu/2, \nu/2)d\eta$
通過該形式，可以擴展出高維學生t分佈
$\begin{aligned} St( x|\mu, \Lambda, \nu) &=\int _0^\infty \mathcal{N} (x|\mu, (\eta \Lambda)^{-1})Gam(\eta| \nu/2, \nu/2)d\eta \\ &= \frac{\Gamma(\nu/2 + D/2)}{\Gamma(\nu/2)} \frac{|\Lambda|^{1/2}}{(\pi \nu) ^{D/2}} \left[1+\frac{\Delta^2}{\nu}\right] ^{-\nu/2 - D/2} \end{aligned}$

其中 $D$ 是維度， $\Delta^2=(x-\mu)^T\Lambda(x-\mu)$

P107 von Mises 分佈

一個二維高斯分佈，關注其在以原點爲圓心的單位圓下的條件概率分佈，角度的分佈爲von Mises分佈（循環正態分佈）
$p(\theta|\theta_0, m)=\frac{1}{2\pi I_0(m)} exp\{ m cos(\theta - \theta_0)\}$
其中 $m = r_0/\sigma^2, r_0 = \left \| \mu \right \|_2,\theta_0=tan^{-1}(\mu_y/\mu_x)$ ，而
$I_0(m)=\frac{1}{2\pi} \int _0^{2\pi} exp \{m cos\theta\} d\theta$
是歸一化因子。

當 $m$ 變大時，von Mises分佈近似高斯分佈

2.4 The Exponential Family

P113 一般形式

$p(x|\eta) = h(x)g(\eta)exp\{ \eta^T u(x)\}$

其中 $x$ 可以是一維或多維，也可以是離散或連續。 $g(\eta)$ 叫做natural parameters，可看作歸一化因子
實際上，本章中上述討論過的概率分佈都是指數族分佈的特例。

P115 參數估計與充分統計量

考慮一般參數 $\eta$ 估計問題，最大似然得到
$p(X|\eta) \propto g(\eta)^Nexp \left\{ \eta^T \sum_{n=1}^N u(x_n) \right\}$

對數求導後得到
$-\nabla \ln g(\eta_{ML}) = \frac{1}{N}\sum_{n=1}^N u(x_n)$

注意這裏 $\sum_n u(x_n)$ 足夠計算 $\eta$ ，所以被稱爲充分統計量。例如對於Bernoulli分佈，僅需要保存 $\{x_n\}$ 的和，對於高斯分佈，需要保存 $\{x_n\}, \{x_n^2\}$ 各自的和。
當 $N \rightarrow \infty$ 時，右側變爲 $\mathbb E _x[u(x)]$ .

P117 共軛先驗

$p(\bm {\eta}| \bm \chi, \nu) = f(\bm\chi ,\nu)g(\bm\eta)^\nu exp\{ \nu \bm\eta^T\bm \chi\}$
其中 $f$ 是一個歸一化因子， $g$ 和 $p(X|\eta)$ 中形式一樣。易得後驗
$p(\eta |\bf X, \bf \chi, \nu) \propto g(\eta)^{\nu + N} exp \left\{ \eta^T \left ( \sum_{n=1}^N \bf u(\bf x_n) + \nu \bf \chi \right )\right \}$
其中 $\nu$ 被看作是先驗僞觀測數，每一次觀測的統計量 $u(x)$ 爲 $\chi$

P117 無信息先驗

無信息先驗這個東西稍微抽象，偏貝葉斯思維。解決的問題是在無先驗時如何選擇先驗，選擇的思想是先驗要對後驗的影響最小。
如果沒有什麼信息，我們假定先驗是均勻分佈，這麼做存在兩個困難：

在無限連續數域上發散。稱之爲反常先驗分佈。但如果後驗分佈是正常的，那麼可以使用這樣的分佈（稱之爲廣義先驗分佈）。例如高斯分佈，如果假定均值先驗是均勻分佈，只要觀測到一個數據點，那麼後驗就正常。
如果另一個參數是該參數的非線性變換，那麼將不再是均勻分佈

（可以參考下這篇博客：感覺寫得很好！https://blog.csdn.net/weixin_41929524/article/details/80674219）

尺度參數的無信息先驗分佈

如果一個分佈形式爲
$p(x|\sigma) = \frac{1}{\sigma} f (\frac{x}{\sigma})$
其中 $\sigma > 0$ ， $f(x)$ 已經歸一化。
考慮 $y=cx, \eta = c\sigma$ 其中 $c> 0$ . 那麼
$p(y|\eta) = \frac{1}{\eta} f (\frac{y}{\eta})$
$x$ 和 $y$ 的函數形式相同，所以 $\eta$ 和 $\sigma$ 應該有相同的先驗分佈，如果 $\sigma$ 的先驗分佈爲 $\pi_\sigma(\sigma)$ ，那麼
$\begin{aligned} \pi_\eta(\eta) &= \pi_\sigma(\sigma) \left |\frac{d\sigma}{d\eta} \right|=\frac{1}{c}\pi_{\sigma} (\frac{\eta}{c}) \\ \pi_\eta &=\pi_\sigma \end{aligned}$
取 $\eta=c$ ，解得 $\pi_\eta(\eta)=\frac{\pi_\eta(1)}{\eta}$ ，取 $\pi_\eta(1)=1$ ，則先驗分佈爲 $1/\eta$ .
這樣的一個例子是高斯分佈中的標準差
$p(x|\sigma) = \sigma^{-1}exp \left \{ -\left (\frac{x}{\sigma} \right )^{2} \right \}$
還有一種位置參數的無信息先驗分佈，可以看原書，推導出的結果是均勻分佈。

2.5 無參數概率密度估計

P122 核密度估計和近鄰方法

這種估計方法不明確給出概率分佈的表達式，而是通過數據進行感知。柱狀圖其實就是一種無參數的概率密度估計方法。

另外一種常用的 $p(x)$ 估計方法是觀察 $x$ 的小鄰域。記 $N$ 爲總樣本數， $K$ 爲小鄰域內樣本數，如果小鄰域足夠小，認爲小鄰域內概率不變，則有
$p(x) = \frac{K}{NV}$

這裏如果固定 $V$ ，則該方法爲核密度估計；如果固定 $N$ ，則爲近鄰估計，即找以 $x$ 爲中心包含 $K$ 個點的最小超球，當作 $V$ .

P125 kNN算法的一種無參解釋

在近鄰方法當中，如果有多個類，則對於第 $\mathcal C_k$ 類，記樣本數爲 $N_k$ ，小鄰域內有樣本數 $K_k$ ，則
$\begin{aligned} \\ p(x|\mathcal C_k) &= \frac{K_k}{N_kV} \\ p(x) &=\frac{K}{NV} \\ p(\mathcal C_k) &= \frac{N_k}{N} \end{aligned}$
則後驗爲
$p(\mathcal C_k|x) = \frac{p(x|\mathcal C_k)p(C_k)}{p(x)} = \frac{K_k}{K}$
這樣，kNN分類就可以解釋爲是近鄰方法中，後驗概率最大的類別。

1-NN分類器有一個很有趣的性質：當 $N \rightarrow \infty$ 時，分類錯誤率不會超過貝葉斯最優分類器錯誤率的兩倍
- 最優分類器可以理解爲是看到了真實後驗分佈
- （我記得這個性質是要求概率連續的）
- 可以參考西瓜書P226

PRML讀書隨筆——第2章 Probability Distribution 兩變量條件期望/方差、R-M序列算法、高斯分佈參數辨識/後驗推斷/相關分佈、指數族分佈、無參數先驗、無參數估計、kNN