Appendix A. Data set

Handwritten Digits

本書所使用的handwritten digits來自於MNIST數據集，每一張image的size爲28×28，且每一個元素中的值都是grey scale。

Synthetic Data

整本書中使用了兩個simple synthetic data sets。
第一個是關於regression problem的，它是由正弦函數擬合而來的，如下圖所示：

首先input values $\{x_n\}$ 通過在(0,1)上的均勻分佈進行生成，然後target values $\{t_n\}$ 的生成是由兩個terms相加得到的：第一個term是sin( $2\pi x$ )，第二個term是random noise (通過一個方差爲0.3的Gaussian distribution生成)。
第二是關於classification problem的，該problem的類別有兩個，其中的prior爲兩個類別概率相等，如下圖所示：

其中blue class來自於一個Gaussian distribution，而red class來自於兩個Gaussian distribution的混合分佈。由於我們明確知道prior和class-conditional probability，因此我們可以算出真實的posterior probability，畫出這個probability，並畫出最小決策邊界（如圖中所示）。

Appendix C. Properties of Matrices

Appendix D. Calculus of Variations

其實書中關於變分法的一些內容我沒太理解。因此下面先對網上一些課程中變分法的思進行歸納。

約翰·伯努利曾問到一個問題：如果在空間上有兩個點：點1和點2。然後，我會創造出一些沒有摩擦力的軌道，連接點1和點2，如下圖所示：

如果我放一個小球，從點1滾到點2，那麼請問，我從哪一個線開始，放一個小球滾下來，會使得我所耗費的時間最短。數學上的證明表示，走擺線的時間最短。
而研究走哪條線最短，其核心在於，將球所走的所有可能函數都抓進來，我們來對這一個函數的集合進行研究，並得到其中那個能使得時間最短的函數。那麼此時，我們就可以說，這個函數就是我們所要的函數。
這就是變分法的基本原理。
關於小球下落後的時間消耗公式推導在此略去，最終的時間消耗結果爲：

$T=\int \frac{\sqrt{1+y\prime}}{\sqrt{2gy}}\text{d}x$

由此，我們可以看到，這裏的T其實是y的函數，當y在變化的時候，T的值也在不斷變化。而y其實是函數，所以T其實就是函數的函數，不同的函數會對應到不同的T的值。所以這裏的T函數就是所謂的“泛函”。

預備定理

（1）

對於下式：
$\int_a^bM(x)h(x)\text{d}x=0$
其中，有 $h(a)=0, h(b)=0$ , 且h爲任意函數，那麼顯然有 $M(x)$ 是零函數（ $M(x)=0$ ）。
這個結論可以推廣到以多個函數爲變數的變分問題：
$\int_a^b[M(x)\eta(x)+N(x)\epsilon(x)]\text{d}x=0$
其中 $\eta(x)$ 和 $\epsilon(x)$ 都是任意的函數，那麼有 $M(x)=0,N(x)=0$ 。

假設存在一個解 $F(x)$ ，使得降落時間T最短。同時，我假設 $\bar{F}(x)$ 爲所有函數的函數族。雖然這兩個函數我都不知道，但是我知道這兩個函數之間是會有差別的，我們設差別爲 $D(x)$ ，則：
$\bar{F}(x)-F(x)=D(x)$
此時我們引入一個常數 $\epsilon$ , 對於這個常數，我們有：
$\epsilon \frac{D(x)}{\epsilon}=\epsilon \eta(x)$

所以我們有：
$\bar{F}(x)=F(x)+\epsilon \eta(x)$
此時，由於 $\eta(x)$ 是一個任意函數，於是我們就得到了一個以 $\epsilon$ 爲參數的函數族 $\bar{F}(x)$ 。
但是這裏的 $\eta(x)$ 函數需要滿足一些重要的性質，即它在1點和2點的橫座標處（分別設爲a和b），有 $\eta(a)=0, \eta(b)=0$ 。
此外， $\eta$ 函數要求其具有較好的連續性，即一階導數和二階導數都存在。這兩個對 $\eta$ 函數的約束，其實質意義是因爲降線的一些基本性質，我們通過這些基本性質，對我們所要尋找的函數所在的空間進行收縮約束。

根據 $\bar{F}(x)$ 的公式可知，無論其他地方如何選取，只要 $\epsilon$ 趨近於0，那麼 $\bar{F}(x)$ 一定會趨近於那一個最佳的 $F(x)$ （只是說，由於 $\eta$ 的不同，我們趨近於0的方式會有所不同）。

Euler方程

對於下式：
$I(\epsilon)=T(\bar{y})=\\ \int_{x_1}^{x_2}\sqrt{\frac{1+(\bar{y}\prime)^2}{2g\bar{y}}}\text{d}x=\\ \int_{x_1}^{x_2}F(x,\bar{y},\bar{y\prime})\text{d}x$
這裏面的 $\bar{y}$ 就是我選取的某一個曲線，這個曲線對應着一個降落的時間 $T(\bar{y})$ 。在這裏的 $F(x, \bar{y}, \bar{y}\prime)$ 中，除了x這個自變量之外，還有 $\bar{y},\bar{y}\prime$ , 表示各種可能的試驗函數，對應着不同的降落曲線，這樣的函數不止一個。因此這樣的F被稱爲“泛函”。
對這個泛函做積分之後，我們就可以得到我們想要的時間 $T$ 。
由之前 $F$ 和 $\bar{F}$ 的關係，我們可以得到：
$\bar{y}=y+\epsilon \eta$
以及
$\bar{y}\prime=y\prime +\epsilon\eta\prime$
其中後者需要利用一下求導的性質。
因此，之前關於 $I(\epsilon)$ 的式子可以寫成：
$\int_{x_1}^{x_2}F(x,y+\epsilon\eta,y\prime+\epsilon\eta\prime)\text{d}x$
注意，我們不能忘記的一個前提是，當 $\epsilon$ 趨近於0的時候，我們的 $\bar{y}$ 就會趨近於我們所要找到的這個解 $y$ 。同時我們注意到，這裏的 $y, \eta , \bar{y}, \bar{\eta}$ 都是x的函數，所以當這個積分式進行計算的時候，所有關於x的部分都消掉了，因此這個式子的最終結果中就只剩下 $\epsilon$ 了，即這個積分的結果其實是一個 $\epsilon$ 的函數。這個函數有一個特性，即“當 $\epsilon$ 趨近於0的時候，這個函數最小”。也就是說，在 $\epsilon=0$ 的這個點上，會出現極值，也即 $I(\epsilon)$ 的微分爲0，即：
$\left.\frac{\text{d}I}{\text{d}\epsilon}\right|_{\epsilon=0}=0$
因此我們可以通過對 $I(\epsilon)$ 求導的方式，得到：
$\left.\frac{\text{d}I}{\text{d}\epsilon}\right|_{\epsilon=0}=\int_{x_1}^{x_2}\frac{\partial F}{\partial \epsilon}\text{d}x=\\ \int_{x_1}^{x_2}(\frac{\partial F}{\partial y}\eta+\frac{\partial F}{\partial y\prime}\frac{\text{d}\eta}{\text{d}x})\text{d}x=\\ \int_{x_1}^{x_2}(\frac{\partial F}{\partial y}-\frac{\text{d}}{\text{d}x}(\frac{\partial F}{\partial y\prime}))\eta\text{d}x$
又根據前面的預備定理，因爲 $\eta$ 是任意的函數，所以有：
$\frac{\partial F}{\partial y}-\frac{\text{d}}{\text{d}x}(\frac{\partial F}{\partial y\prime})=0$
這就是Euler方程。那麼滿足這個條件的函數y的意義是什麼？意義在於，滿足這個條件的y，會使得F產生極值。或者反過來說，如果一個函數不能使得這個式子爲0，那麼微分 $\left.\frac{\text{d}I}{\text{d}\epsilon}\right|_{\epsilon=0}$ 就不會爲0，所以這樣的函數y就不會使這個泛函F產生極值。

回到附錄的內容

我們可以將一個方程 $y(x)$ 看作是一個運算符，它通過輸入一個值 $x$ 的方式，得到輸出值 $y$ 。對於一個泛函 $F[y]$ , 我們可以將一個函數 $y(x)$ 作爲它的輸入，將，將 $F$ 作爲它的輸出。一個經典的泛函例子是，我們通過二維平面的一條曲線的函數，計算得到這條曲線的長度。。
在machine learning 中，泛函被用於entropy $H[x]$ 中。因爲，針對一個連續的變量x，我們將它的任意一種概率密度函數 $p(x)$ 輸入到這個entropy中，最終我們都會得到一個scalar value。因此，關於 $p(x)$ 的entropy可以被寫爲 $H[p]$ 。

函數 $y(x)$ 的一個重要問題是，尋找一個x，使得函數 $y(x)$ 的值最大（或最小）。對於泛函而言，它的一個重要問題是，尋找一個函數y，使得泛函 $F[y]$ 的取值最大（或最小）。
我們可以通過泛函求極值的方式，發現“兩點之間線段最短”這個結論，也會發現“最大熵分佈是高斯分佈”這一結論。

我們可以用泰勒展開式的方式，來描述一個函數 $y(x)$ 中，當 $x$ 在小範圍之內出現擾動時候的取值情況，並通過取極限的方式得到 $\frac{\text{d}y}{\text{d}x}$ ：
$y(x+\epsilon)=y(x)+\frac{\text{d}y}{\text{d}x}\epsilon+O(\epsilon^2)\ \ \ \ (D.1)$
然後我們可以通過極限 $\epsilon\to 0$ 的方式，得到 $\frac{\text{d}y}{\text{d}x}$ 的具體取值。類似的，通過一個具有多個變量的函數 $y(x_1,...,x_D)$ , 我們可以得到如下的式子：
$y(x_1+\epsilon_1, ..., x_D+\epsilon_D)=y(x_1, ..., x_D)+\sum_{i=1}^D\frac{\partial y}{\partial x_i}\epsilon_i + O(\epsilon^2)\ \ \ \ (D.2)$
以上兩個式子展示了我們在函數中如何對導數/偏導數進行估計的方法。那麼，類比而論，我們應該如何得到一個泛函在出現擾動 $\epsilon\eta(x)$ 的時候，其泛函導數的具體情況？其中， $\eta(x)$ 是一個關於x的函數，具體的函數曲線如下圖所示：

我們將泛函 $E[f]$ 關於函數 $f(x)$ 的導數（變分）表示爲 $\delta F/\delta f(x)$ 。注意，這裏的 $E$ 是泛函，而 $F$ 是泛函中積分的被積函數（我們稱之爲“拉格朗日函數”），且變分的表達式是關於拉格朗日函數 $F$ 的式子。由此，我們定義以下關係式：
$F[y(x)+\epsilon\eta(x)]=F[y(x)]+\epsilon\int\frac{\delta F}{\delta y(x)}\eta(x)\text{d}x+O(\epsilon^2)\ \ \ \ (D.3)$

我們可以將其看作是(D.2)的一種自然的擴展，因爲我們可以將一個函數看作是無限維的向量，每一個分量都是連續的值， $F[x]$ 以該向量作爲輸入。

此時我們給出一個定理（就是上面提到過的預備定理），即當下式成立時：
$\int \frac{\delta E}{\delta y(x)}\eta(x)\text{d}x=0\ \ \ \ (D.4)$

其中 $\eta(x)$ 是任意類型的函數。

有， $E(x)=0$ 。證明的方法其實就是對 $\eta(x)$ 進行一些特別的構造，讓它在除了點 $x=\hat{x}$ 的一個小鄰域之外的所有點的取值爲0，那麼此時如果要讓式(D.4)爲0的話，那麼就有 $\frac{\delta E}{\delta y(x)}$ 在 $x=\hat{x}$ 的鄰域內的取值都爲0。把這種構造方法擴展到整個定義域，則有變分 $\delta E/\delta y(x)=0$ 。
考慮如如下定義的變分函數：
$F[y]=\int G(y(x), y\prime(x), x)\text{d}x\ \ \ \ (D.5)$
其中， $G$ 函數是拉格朗日函數，並且有函數 $y(x)$ 在積分區域的邊界點是固定不動的。
如果我們考慮泛函 $F[x]$ 在 $y(x)$ 上的變分的話，有：
$F[y(x)+\epsilon\eta(x)]=F[y(x)]+\epsilon\int\left\{ \frac{\partial G}{\partial y}\eta(x)+\frac{\partial G}{\partial y\prime}\eta\prime(x) \right\} \text{d}x+ O(\epsilon^2)\ \ \ \ (D.6)$
爲了將這個式子轉換爲(D.3)式（由此我們就可以得到這裏變分的表達了），我們將(D.7)式中積分號內的第二項進行分步積分（其中利用了 $\eta(x)$ 在邊界爲0，這一邊界條件），遂得到如下的式子：
$F[y(x)+\epsilon\eta(x)]=F[y(x)]+\epsilon\int\left\{ \frac{\partial G}{\partial y}-\frac{\text{d}}{\text{d}x}\left( \frac{\partial G}{\partial y\prime} \right) \right\} \eta(x) \text{d}x +O(\epsilon^2)\ \ \ \ (D.7)$
類比於公式(D.3)，我們可以得到這裏的變分式子：
$\int\left\{ \frac{\partial G}{\partial y}-\frac{\text{d}}{\text{d}x}\left( \frac{\partial G}{\partial y\prime} \right) \right\}$
此時又根據預備定理，我們可以得到：
$\frac{\partial G}{\partial y}-\frac{\text{d}}{\text{d}x} \left(\frac{\partial G}{\partial y\prime}\right)=0\ \ \ \ (D.8)$
這就是著名的Euler-Lagrange 公式。

舉個例子，如果我們的拉格朗日函數爲：
$G=y(x)^2+(y\prime(x))^2\ \ \ \ (D.9)$
那麼有Euler-Lagrange 公式爲：
$y(x)-\frac{\text{d}^2y}{\text{d}x^2}=0\ \ \ \ (D.10)$
此時我們可以通過上面的公式與兩個關於 $y(x)$ 的邊界條件，求解得到 $y(x)$ 的值。
通常，我們定義的拉格朗日函數形式爲 $G(y, x)$ , 此時該函數不依賴於 $y\prime(x)$ , 此時對於所有的x有歐拉函數的形式爲： $\partial G/\partial y(x)=0$ 。
如果我們要對一個關於概率分佈的泛函採用變分法，那麼我們需要採用拉格朗日橙乘子的方式，在顧及normalization constraint的時候，採用一種unconstrained optimization。
拉格朗日乘子的具體方法見附錄E部分。

Appendix E. Lagrange Multipliers

拉格朗日乘子用於尋找從擁有一個或多個約束條件的函數的駐點。

考慮一個尋找函數 $f(x_1, x_2)$ 最大值的問題，該問題有一個關於 $x_1,x_2$ 的約束條件：
$g(x_1, x_2)=0\ \ \ \ (E.1)$
一種方法是，直接把這個g函數求解出來，於是得到一種用 $x_1$ 表達 $x_2$ 的形式： $x_2=h(x_1)$ 。然後我們將這個結果代回原式： $f(x_1, h(x_2))$ , 然後我們只需要最大化這個關於 $x_1$ 的一元函數即可。我們利用常規的方法解出 $x_1^*$ , 然後得到 $x_2^*=h(x_2^*)$ 。

這種方法的一個問題在於，我們可能很難找到一個等式的解析解，因此無法將 $x_2$ 表示成 $x_1$ 的某種形式。

一種更爲簡潔的方式是使用被稱爲拉格朗日乘子的參數 $\lambda$ 。那麼我們該如何理解這種方法？接下來我們將從圖形的角度來解釋這個方法。考慮一個D維的變量 $\mathbf{x}=(x_1, ..., x_D)$ 。約束條件 $g(\mathbf{x})=0$ 形成了一個D-1維度的在 $\mathbf{x}$ -上的空間。如下圖所示：

首先，我們注意到，在這個約束表面的任何一個點處，這個約束條件的梯度 $\nabla g(\mathbf{x})$ 都是垂直於這個表面的。爲了解釋這個問題，我們考慮一個在約束表面上的點 $\mathbf{x}$ , 並且考慮該點周圍的一個點 $\mathbf{x+\epsilon}$ , 我們假設這個點也同樣在這個表面上。如果我們在 $\mathbf{x}$ 周圍進行泰勒展開，就會得到：
$g(\mathbf{x+\epsilon})\simeq g(\mathbf{x})+\mathbf{\epsilon}^{\text{T}}\nabla g(\mathbf{x})\ \ \ \ (E.2)$
又因爲 $\mathbf{x}$ 和 $\mathbf{x+\epsilon}$ 都在約束平面上，所以有 $g(\mathbf{x})=g(\mathbf{x+\epsilon})$ , 因此有 $\mathbf{\epsilon}^{\text{T}}\nabla g(\mathbf{x})\simeq 0$ 。當取得極限 $||\epsilon||\to 0$ 的時候，我們有 $\epsilon^{\text{T}}g(\mathbf{x})=0$ 。又因爲我們知道， $\epsilon$ 與約束表面 $g(\mathbf{x})=0$ 是平行的，所以我們可以得出的結論是， $\nabla g$ 與表面垂直。

然後我們在這個約束面上選取一個能使得 $f(\mathbf{x})$ 值最大的點 $\mathbf{x}^*$ ，這樣一個點同樣具有性質： $\nabla f(\mathbf{x})$ 同樣垂直於約束面（如上圖所示），否則我們可以通過在約束面上移動一個小距離的方式，得到一個更大的 $f(\mathbf{x})$ 。因此， $\nabla f$ 和 $\nabla g$ 之間是平行的，即：
$\nabla f+\lambda \nabla g = 0\ \ \ \ (E.3)$
其中， $\lambda\neq 0$ , 它被稱爲“拉格朗日乘子”。並且注意， $\lambda$ 可以是正數或負數。

因此，我們可以定義拉格朗日函數如下：
$L(\mathbf{x}, \lambda)\equiv f(\mathbf{x})+\lambda g(\mathbf{x})\ \ \ \ (E.4)$
我們可以通過 $\nabla_{\mathbf{x}}L=0$ 的方式得到帶約束條件的駐點(E.3)。更進一步說，我們可以通過 $\partial L/\partial \lambda=0$ 得到約束等式 $g(\mathbf{x})=0$ 。

因此，總結看來，如果我們需要找到函數 $f(\mathbf{x})$ 在約束 $g(\mathbf{x})=0$ 時的最大值，我們首先需要定義關於 $\mathbf{x}$ 和 $\lambda$ 的拉格朗日函數 $L(\mathbf{x}, \lambda)$ 。對於一個D維的向量 $\mathbf{x}$ ,這種方式提供了D+1個方程，用於確定駐點 $\mathbf{x}^*$ 以及 $\lambda$ 的值。如果我們不需要計算出 $\lambda$ ,我們可以在這個方程組中，先把 $\lambda$ 消去。

爲了加深對這個方法的印象，我們在此舉一個例子。設我們需要找到函數 $f(x_1, x_2)=1-x_1^2-x_2^2$ 在約束 $g(x_1, x_2)=x_1+x_2-1=0$ 下的駐點，如下圖所示：

因此相應的拉格朗日函數爲：
$L(\mathbf{x}, \lambda)=1-x_1^2-x_2^2+\lambda(x_1+x_2-1)\ \ \ \ (E.5)$
爲了使該拉格朗日函數取得駐點，我們需要以下三個等式：
$-2x_1+\lambda=0\ \ \ \ (E.6)$
$-2x_2+\lambda=0\ \ \ \ (E.7)$
$x_1+x_2-1=0\ \ \ \ (E.8)$
最終我們可以得到駐點 $(x_1^*, x_2^*)=(\frac{1}{2}, \frac{1}{2})$ , 相應的拉格朗日乘子爲 $\lambda=1$ 。

剛纔我們已經討論了具有“等式”約束的目標方程的最大化問題，現在我們來討論具有不等式約束的目標方程 $g(\mathbf{x})\geq 0$ 的最大化問題，如下圖所示：

對於這個優化問題的解，我們可以將其拆分成兩種不同的情況：

駐點位於 $g(\mathbf{x})>0$ 的區域內，此時我們的約束條件是inactive的。此時函數 $g(\mathbf{x})$ 沒起到任何作用，因此此時的駐點僅僅依賴於等式 $\nabla f(\mathbf{x})=0$ 。該情況可以歸於拉格朗日函數(E.4)這種情況中，但同時有 $\lambda=0$ 。
駐點位於邊界 $g(\mathbf{x})=0$ 上，此時約束條件是active的，即解在邊界上，那麼這種情況則完全可以類比於之前(E.4)拉格朗日函數中對等式約束的處理，並有 $\lambda\neq 0$ 。但是此時，拉格朗日乘子的正負號十分重要，因爲 $f(\mathbf{x})$ 達到最大值，當且僅當它的梯度方向與區域 $g(\mathbf{x})>0$ 的方向相反，正如上圖所示。因此，有 $\nabla f(\mathbf{x})=-\lambda\nabla g(\mathbf{x}), \lambda>0$ 。

但是，無論是上述哪一種情況，總會有： $\lambda g(\mathbf{x})=0$ , 因此在約束條件 $g(\mathbf{x})\geq 0$ 下對 $f(\mathbf{x})$ 進行最大化的問題轉換爲，在滿足以下條件的同時，最大化拉格朗日函數(E.4)：
$g(\mathbf{x})\geq 0\ \ \ \ (E.9)$
$\lambda \geq 0\ \ \ \ (E.10)$
$\lambda g(\mathbf{x})=0\ \ \ \ (E.11)$

以上條件就是所謂的Karush-Kuhn-Tucker(KKT)條件。

注意到，如果我們要在條件 $g(\mathbf{x})$ 的前提下最小化函數 $f(\mathbf{x})$ ，那麼我們需要在保證 $\lambda\geq 0$ 的時候，最小化拉格朗日函數 $L(\mathbf{x}, \lambda)=f(\mathbf{x})-\lambda g(\mathbf{x})$

我們將上述兩種方法結合一下，並擴展到多個等式和不等式約束條件。假設我們需要在滿足 $g_j(\mathbf{x})=0, \text{for}\ \ j=1,...,J, \text{and}\ \ h_k(\mathbf{x})\geq 0\ \ \text{for}\ \ k=1, ..., K$ 的前提下最大化 $f(\mathbf{x})$ 。我們引入拉格朗日乘子 $\{\lambda_j\}$ 以及 $\{\mu_k\}$ , 並優化如下拉格朗日函數：
$L(\mathbf{x}, \{\lambda_j\}, \{\mu_k\})=f(\mathbf{x})+\sum_{j=1}^J\lambda_jg_j(\mathbf{x})+\sum_{k=1}^K\mu_kh_k(\mathbf{x})\ \ \ \ (E.12)$
並具有約束條件： $\mu_k\geq 0$ 以及 $\mu_kh_k(\mathbf{x})=0, \text{for}\ \ k=1,...,K$ 。

PRML附錄筆記

Appendix A. Data set

Handwritten Digits

Synthetic Data

Appendix C. Properties of Matrices

Appendix D. Calculus of Variations

預備定理

（1）

Euler方程

回到附錄的內容

Appendix E. Lagrange Multipliers

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

PRML附錄筆記

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結