變分法在機器學習中的應用

禁止轉載

前言

如果只打算看和機器學習有關的變分法，只需要看到小結這一章即可，後面的內容可以不用看。

一個概率分佈問題

介紹變分法之前，先拋出一個和機器學習有關的概率問題：
一個一維分佈 $p(x)$ ：

若已知期望爲 $\mu$ ，方差爲 $\sigma^2$ ，熵最大的情況下 $p$ 是什麼分佈？
不要問題1的條件，換成若已知隨機變量的取值範圍在 $(a,b)$ ，熵最大的情況下 $p$ 是什麼分佈？

對於問題1，可形式化爲
$\begin{aligned} \max_p &\int_{-\infty}^{\infty}-p(x)\ln p(x)dx \\ s.t. \quad &\int_{-\infty}^{\infty}p(x)dx=1 \\ &\int_{-\infty}^{\infty}xp(x)dx=\mu \\ & \int_{-\infty}^{\infty}(x-\mu)^2p(x)dx=\sigma^2 \end{aligned}$

對於問題2，可形式化爲
$\begin{aligned} \max_p &\int_{a}^{b}-p(x)\ln p(x)dx \\ s.t. \quad &\int_{a}^{b}p(x)dx=1 \\ \end{aligned}$

仔細觀察之後，會發現上述問題並不好做，似乎和我們以前遇到的優化問題不同，區別在於優化目標 $p$ 是一個函數，而不是一個或幾個標量

爲了解決這種優化問題，我們需要引入新的工具——變分法

變分法

泛函：首先引入泛函的概念，泛函指定義域爲函數集合，值域爲實數的“函數”，即函數的函數。而變分法則是處理泛函的數學領域（泛函分析則是研究對象主要爲函數構成的函數空間的數學領域）
歷史：變分法最早是爲了解決最速降線問題而設計的，在理論物理當中應用非常多

預備定理

如果 $\int _a^b M(x)\eta(x)dx=0$ ， $M$ 在 $(a,b)$ 上連續， $\eta$ 爲任意函數， $\eta(a)=0,\eta(b)=0$ ，那麼 $\forall x \in (a,b),M(x)=0$ .
證明：
令 $\eta(x)=-M(x)(x-a)(x-b)$ ，則 $M(x)\eta(x)=M(x)^2[-(x-a)(x-b)]\ge 0$ ，所以 $M(x)=0$ .

類似的代數證法，可以擴展到多變量問題，若 $\int _a^b [M(x)\eta(x) +N(x)\xi(x)] dx=0$ ， $\eta, \xi$ 爲任意函數，且在 $a,b$ 兩點爲0，則 $M(x)=0, N(x)=0$ .

這個定理先放在這，在推導Euler方程最後一步時會用

優化問題與函數集合

給定一個關於函數 $\bar{y}(x)$ 的待求優化問題
$\min_{\bar{y}} \int_{x_1}^{x_2}F(x, \bar{y}, \bar{y}')dx$
而且我們假定 $\bar{y}(x_1)$ 和 $\bar{y}(x_2)$ 已知，
如果 $y(x)$ 是待求最優解，則函數 $\bar{y}$ 可以描述爲
$\bar {y}(x) = y(x)+\epsilon \eta(x)$
其中 $\eta$ 是任意函數，滿足 $\eta (x_1) = 0, \eta(x_2) =0$ （很重要，後面要用）， $\eta$ 可以看作是對 $F$ 的一個擾動， $\epsilon$ 是一個實數，通過改變 $\eta$ 和 $\epsilon$ ，可以形成關於 $\bar{y}$ 的函數族。
而且 $\bar{y}$ 的一階導數爲
$\bar{y}'=y' + \epsilon \eta'$
所以原問題的目標函數可以寫爲
$\int_{x_1}^{x_2}F(x, y+\epsilon \eta, y' + \epsilon \eta')dx \tag{1}$

Euler方程第一形式

注意式(1)中 $y$ 和 $\eta$ 都是關於 $x$ 的函數，所以式(1)的積分結果是一個關於 $\epsilon$ 的函數，記爲 $I(\epsilon)$ 。
一方面，觀察到當 $\epsilon \rightarrow 0$ 時，無論 $\eta$ 取什麼，都有 $\bar{y} \rightarrow y$ . 也即，無論 $\eta$ 取什麼， $\epsilon=0$ 都是 $I(\epsilon)$ 極小值點，所以
$\frac{dI}{d\epsilon} \big| _{\epsilon=0}=0 \tag{2}$
另一方面，
$\frac{dI}{d\epsilon} = \int_{x_1}^{x_2} \frac {\partial F}{\partial \epsilon}dx \tag{3}$
對於 $\frac {\partial F}{\partial \epsilon}$ ，記 $u= y+\epsilon \eta$ ， $v=y' + \epsilon \eta'$ ，則
$\begin{aligned} \frac {\partial F}{\partial \epsilon} &= \frac {\partial F}{\partial x}\frac {\partial x}{\partial \epsilon} + \frac {\partial F}{\partial u}\frac {\partial u}{\partial \epsilon} + \frac {\partial F}{\partial v}\frac {\partial v}{\partial \epsilon} \\ &= \frac {\partial F}{\partial u} \eta + \frac {\partial F}{\partial v} \eta ' \end{aligned}$
帶回式(3)得
$\frac{dI}{d\epsilon} = \int_{x_1}^{x_2} ( \frac {\partial F}{\partial u} \eta + \frac {\partial F}{\partial v} \eta ') dx$
當 $\epsilon=0$ 時， $u=y,v=y'$ ，所以
$\frac{dI}{d\epsilon} \big|_{\epsilon=0} = \int_{x_1}^{x_2} ( \frac {\partial F}{\partial y} \eta + \frac {\partial F}{\partial y'} \eta ') dx \tag{4}$
觀察第二項，由分步積分公式 $\int u dv = uv - \int v du$ 可得
$\int_{x_1}^{x_2} \frac {\partial F}{\partial y'} \eta ' dx = \frac {\partial F}{\partial y'}\eta \big|_{x_1}^{x_2}- \int \eta d(\frac {\partial F}{\partial y'}) \tag{5}$
因爲 $\eta(x_1)=0, \eta(x_2)=0$ ，所以 $\frac {\partial F}{\partial y'}\eta \big|_{x_1}^{x_2}=0$ ，代入式(5)得
$\int_{x_1}^{x_2} \frac {\partial F}{\partial y'} \eta ' dx = - \int \eta \frac{d}{dx}(\frac {\partial F}{\partial y'})dx \tag{6}$
把式(6)代入式(4)得
$\begin{aligned} \frac{dI}{d\epsilon} \big|_{\epsilon=0} &= \int_{x_1}^{x_2} \big[ \frac {\partial F}{\partial y} \eta -\eta \frac{d}{dx}(\frac {\partial F}{\partial y'}) \big] dx \\ &= \int_{x_1}^{x_2} \big [ \frac {\partial F}{\partial y} - \frac{d}{dx}(\frac {\partial F}{\partial y'}) \big] \eta dx \end{aligned}$
注意 $\eta$ 是任意函數，且 $\eta(a)=0,\eta(b)=0$ ，又式(2)可得 $\int_{x_1}^{x_2} \big [ \frac {\partial F}{\partial y} - \frac{d}{dx}(\frac {\partial F}{\partial y'}) \big] \eta dx=0$ ，所以由預備定理
$\frac {\partial F}{\partial y} - \frac{d}{dx}(\frac {\partial F}{\partial y'}) =0 \tag{7}$
式(7)即爲Euler方程第一形式，也就是說如果 $\epsilon=0$ 是 $I$ 的極值，那麼就必須滿足式(7).
當 $F$ 不是 $y'$ 的函數，僅爲 $F(x,y)$ 時，式(7)簡化爲 $\frac {\partial F}{\partial y}=0$ .

概率分佈問題的解決

至此，我們就已經可以解決一開始提出的概率分佈問題了。

問題1的解決

把形式化再抄一遍，並把目標函數由 $\max$ 換成 $\min$ ：
$\begin{aligned} \min_p &\int_{-\infty}^{\infty}p(x)\ln p(x)dx \\ s.t. \quad &\int_{-\infty}^{\infty}p(x)dx=1 \\ &\int_{-\infty}^{\infty}xp(x)dx=\mu \\ & \int_{-\infty}^{\infty}(x-\mu)^2p(x)dx=\sigma^2 \end{aligned}$
用拉格朗日乘子法把該問題轉化爲無約束問題：
$\begin{aligned} &\int_{-\infty}^{\infty}p(x)\ln p(x)dx + \lambda_1 (\int_{-\infty}^{\infty}p(x)dx-1) + \lambda_2(\int_{-\infty}^{\infty}xp(x)dx-\mu) + \lambda_3 (\int_{-\infty}^{\infty}(x-\mu)^2p(x)dx-\sigma^2) \\ =&\int_{-\infty}^{\infty}[p(x)\ln p(x)+\lambda_1 p(x) + \lambda_2xp(x) + \lambda_3 (x-\mu)^2p(x) + C(x,\lambda_1,\lambda_2, \lambda_3)]dx \end{aligned}$
其中 $C$ 滿足 $\int_{-\infty}^{\infty} C(x,\lambda_1,\lambda_2, \lambda_3)dx=-\lambda_1-\lambda_2 \mu -\lambda_3 \sigma^2$ ，並看作是一個與 $p$ 無關的函數。
我們假定 $p(x)$ 在無窮遠處爲0，這樣就滿足了上述介紹的優化問題的形式，
記 $F(x,p)=p\ln p+\lambda_1 p + \lambda_2xp + \lambda_3 (x-\mu)^2p + C$ ，記最優解爲 $p^*$ ，則由Euler方程第一形式，可得
$0=\frac {\partial F}{\partial p^*}=\ln p + 1+\lambda_1 + \lambda_2x + \lambda_3(x-\mu)^2$
即
$p=exp\{-1-\lambda_1-\lambda_2 x - \lambda_3(x-\mu)^2\} \tag{8}$
注意這已經是一個高斯函數的形式！
又由三個限制方程
$\begin{aligned} & \int_{-\infty}^{\infty}p(x)dx=1 \\ &\int_{-\infty}^{\infty}xp(x)dx=\mu \\ & \int_{-\infty}^{\infty}(x-\mu)^2p(x)dx=\sigma^2 \end{aligned}$
可以從中解出 $\lambda_1,\lambda_2,\lambda_3$ ，帶回式(8)得
$p^*(x)=\frac{1}{(2\pi \sigma^2)^\frac{1}{2}}exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}$
所以在給定均值和方差的前提下，最大熵對應的分佈是高斯分佈。

問題2的解決

把形式化再抄一遍，並把目標函數由 $\max$ 換成 $\min$ ：
$\begin{aligned} \min_p &\int_{a}^{b}p(x)\ln p(x)dx \\ s.t. \quad &\int_{a}^{b}p(x)dx=1 \\ \end{aligned}$
同問題1，先用拉格朗日乘子法轉化成無約束問題：
$\begin{aligned} &\int_{a}^{b}p(x)\ln p(x)dx + \lambda_1 (\int_{a}^{b}p(x)dx-1) \\ =&\int_{a}^{b}[p(x)\ln p(x)+\lambda_1 p(x) - \frac{\lambda_1}{b-a}]dx \end{aligned}$
我們假定 $p(x)$ 在 $a,b$ 兩點概率爲0，這樣就滿足了上述介紹的優化問題的形式，
記 $F(x,p)=p\ln p+\lambda_1 p -\frac{\lambda_1}{b-a}$ ，記最優解爲 $p^*$ ，則由Euler方程第一形式，可得
$0=\frac {\partial F}{\partial p^*}=\ln p + 1+\lambda_1$
即
$p^*=exp\{-1-\lambda_1\} \tag{9}$
注意，這已經是一個均勻分佈的形式！
又由限制方程
$\begin{aligned} & \int_{-\infty}^{\infty}p(x)dx=1 \\ \end{aligned}$
可以從中解出 $\lambda_1$ ，帶回式(9)得
$p^*(x)=\frac{1}{b-a}$
所以在有限區間內，最大熵對應的分佈是均勻分佈。此時無需均值和方差的約束。

小結

變分法在機器學習當中是一個很好用的技巧，其實機器學習當中輸入爲函數，輸出爲實數，這樣的泛函例子並不少見，例如各種散度——衡量了兩個分佈之間的差異性，散度的泛函又引入了變分推斷當中，例如變分自編碼器
機器學習當中遇到的大多數變分問題都較爲簡單，往往被積函數 $F$ 和待求函數 $y$ 的導數是無關的，也即只需要滿足Euler方程中 $\frac {\partial F}{\partial y}=0$ 就可以
後文將繼續介紹完整的變分法理論，後續理論在機器學習當中的使用較爲罕見，看到這裏就可以提前退場了，如果看的很爽，那麼就跟我繼續看下去吧，2333

變分法（後續）

Euler方程第二形式

注意到
$\begin{aligned} \frac{dF}{dx}(x,y,y') &=\frac{\partial F}{\partial x} \frac{dx}{dx}+ \frac{\partial F}{\partial y} \frac{dy}{dx} + \frac{\partial F}{\partial y'} \frac{dy'}{dx} \\ &= \frac{\partial F}{\partial x}+ \frac{\partial F}{\partial y}y'+ \frac{\partial F}{\partial y'} y'' \tag{10} \end{aligned}$
因爲
$\frac{d}{dx}(y'\frac{\partial F}{\partial y'}) = y'' \frac{\partial F}{\partial y'} + y'\frac{d}{dx}(\frac{\partial F}{\partial y'}) \tag{11}$
把式(10)等號右側第三項帶入式(11)可得
$\begin{aligned} \frac{d}{dx}(y'\frac{\partial F}{\partial y'}) &=\big[\frac{dF}{dx}(x,y,y') - \frac{\partial F}{\partial x}- \frac{\partial F}{\partial y}y' \big] + y'\frac{d}{dx}(\frac{\partial F}{\partial y'}) \\ &=\frac{dF}{dx}(x,y,y') - \frac{\partial F}{\partial x}- y' \big[\frac{\partial F}{\partial y}- \frac{d}{dx}(\frac{\partial F}{\partial y'})\big] \end{aligned}$
注意到 $\frac{\partial F}{\partial y}- \frac{d}{dx}(\frac{\partial F}{\partial y'})$ 爲Euler方程的第一種形式，所以上式繼續化簡爲
$\begin{aligned} \frac{d}{dx}(y'\frac{\partial F}{\partial y'}) =\frac{dF}{dx}(x,y,y') - \frac{\partial F}{\partial x} \end{aligned}$
即
$\begin{aligned} \frac{\partial F}{\partial x} - \frac{d}{dx}(F-y'\frac{\partial F}{\partial y'}) =0 \end{aligned} \tag{12}$
式(12)即爲Euler方程第二形式，注意如果 $F$ 不顯含 $x$ ，那麼 $\frac{\partial F}{\partial x}=0$ ，則有 $F-y'\frac{\partial F}{\partial y'}=C$ . 在這種情況下，第二形式非常方便。

變分算子

$\bar{y}=y + \epsilon \eta(x) = y + \delta y$
其中， $\delta y$ 就稱作對 $y$ 的變分。

貼參考文獻[1]的一張圖，說明變分和微分的區別

微分：當 $x$ 變化時， $y$ 的變化
變分： $x$ 不變，人爲的對 $y$ 加擾動

一般我們認爲自變量的變分爲0（或者說不能變分），例如 $y(x)$ ，認爲 $\delta x = 0$ ，因爲在自變量上加擾動沒有意義，自變量這個時候應該看作是一個“標準”，其他量以這些“標準”爲依據。

變分算子和微分算子的可交換性

$\frac{d}{dx}\delta y=\frac{d}{dx}\epsilon \eta(x) = \epsilon \frac{d}{dx} \eta(x)=\epsilon \eta'$
另一方面
$\delta \frac{d}{dx} y = \bar{y'} - y' = \epsilon \eta'$
所以，變分算子和微分算子的順序可以交換。

變分算子和積分算子的可交換性

$\begin{aligned} \delta \int F(x)dx &= \overline {\int F(x)dx} - \int F(x)dx = \int \bar F(x)dx - \int F(x)dx \\ & = \int [\bar F(x) - F(x)]dx = \int \delta F(x) dx \end{aligned}$
所以，變分算子和積分算子的順序可以交換。

函數與泛函的變分算子

對於 $F(x,y,z)$
$\delta F = \frac{\partial F}{\partial x}\delta x + \frac{\partial F}{\partial y}\delta y + \frac{\partial F}{\partial z}\delta z$
上式子說明了對 $x,y,z$ 的擾動，是如何產生對 $F$ 的擾動的
除式的變分公式：
$\delta (\frac{f}{g}) = \frac{g\delta f - f\delta g}{g^2}$

多函數的變分

對於多函數的問題，先以兩個函數爲例：
$\min_{\bar{f},\bar{g}} I=\int_{x_1}^{x_2}F(x,\bar{f},\bar{g},\bar{f}',\bar g')dx$
類似單變量的方法令最優解爲 $f,g$ ，則有
$\bar f = f + \epsilon \eta \\ \bar g = g+ \epsilon \xi$
一方面得到
$\frac{dI(\epsilon)}{d\epsilon} \big|_{\epsilon=0} = 0$
另一方面
$\frac{dI(\epsilon)}{d\epsilon} \big |_{\epsilon=0} =\int_{x_1}^{x_2} (F_f \eta + F_g \xi + F_{f'} \eta' + F_{g'} \xi')dx$
用分佈及分公式可得
$\begin{aligned} \int_{x_1}^{x_2} F_{f'} \eta' dx &= F_{f'}\eta \big|_{x_1}^{x2} - \int_{x_1}^{x_2} \eta dF_{f'} \\ &= - \int_{x_1}^{x_2} \eta \frac{d}{dx}(F_{f'} )dx \end{aligned}$
$g$ 做類似的處理，帶回得
$\frac{dI(\epsilon)}{d\epsilon} \big |_{\epsilon=0} = \int _{x_1}^{x_2}[(F_f - \frac{d}{dx}F_{f'})]\eta+[(F_g - \frac{d}{dx}F_{g'})]\xi dx$
由預備定理得
$F_f - \frac{d}{dx}F_{f'} = 0 \\ F_g - \frac{d}{dx}F_{g'} = 0$
上式爲多變量得Euler方程，可以看到它與單變量得形式是一致的。對於更多變量得情況，推導結果類似。

雙變量單函數的多重積分變分

記
$I(\epsilon) = \iint_D F(x_1, x_2, \bar y, \frac{\partial \bar y}{\partial x_1}, \frac{\partial \bar y}{\partial x_2})dx_1dx_2$
則有
$\begin{aligned} \frac{dI}{d\epsilon} \big|_{\epsilon=0} &= \iint_D \big[\frac{\partial F}{\partial y} \frac{\partial y}{\partial \epsilon} + \frac{\partial F}{\partial (\frac{\partial y}{\partial x_1})} \frac{\partial }{\partial \epsilon}(\frac{\partial y}{\partial x_1}) + \frac{\partial F}{\partial (\frac{\partial y}{\partial x_2})} \frac{\partial }{\partial \epsilon}(\frac{\partial y}{\partial x_2}) \big] dx_1dx_2 \\ &= \iint_D \big[\frac{\partial F}{\partial y} \frac{\partial y}{\partial \epsilon} + \frac{\partial F}{\partial (\frac{\partial y}{\partial x_1})} \frac{\partial }{\partial x_1}(\frac{\partial y}{\partial \epsilon}) + \frac{\partial F}{\partial (\frac{\partial y}{\partial x_2})} \frac{\partial }{\partial x_2}(\frac{\partial y}{\partial \epsilon}) \big] dx_1dx_2 \end{aligned}$

首先給出格林公式
$\iint_D \big[\frac{\partial P}{\partial x_1} + \frac{\partial Q}{\partial x_2} \big]dx_1dx_2 = \int_C Pdx_2 - Qdx_1 \tag{13}$
如果令
$P(x_1,x_2) = \Phi(x_1, x_2)A(x_1, x_2) \qquad Q(x_1,x_2) = \Phi(x_1, x_2)B(x_1, x_2)$
帶回式(13)得
$\iint_D\big[ A\frac{\partial \Phi}{\partial x_1} +B\frac{\partial \Phi}{\partial x_2} \big]dx_1dx_2 = -\iint_D (\frac{\partial A}{\partial x_1} +\frac{\partial B}{\partial x_2})\Phi dx_1dx_2 + \int_C (Adx_2 - Bdx_1)\Phi \tag{14}$

所以，如果令
$\Phi = \frac{\partial y}{\partial \epsilon} \qquad A = \frac{\partial F}{\partial (\frac{\partial y}{\partial x_1})} \qquad B = \frac{\partial F}{\partial (\frac{\partial y}{\partial x_2})}$
即 $\bar y = y + \epsilon \Phi$ ，那麼
$\begin{aligned} \frac{dI}{d\epsilon} &= \iint_D \big[\frac{\partial F}{\partial y} \Phi +A \frac{\partial }{\partial x_1}\Phi + B \frac{\partial }{\partial x_2}\Phi \big] dx_1dx_2 \end{aligned}$
把後兩項用格林公式(14)替換，得到
$\begin{aligned} \frac{dI}{d\epsilon} &= \iint_D \big[\frac{\partial F}{\partial y} - (\frac{\partial A}{\partial x_1} +\frac{\partial B}{\partial x_2}) \big] \Phi dx_1dx_2 \end{aligned}$
注意式(14)中的線積分 $\int_C (Adx_2 - Bdx_1)\Phi=0$ ，所以線積分直接捨去了，這裏非常厲害！！！
線積分爲0的原因在於 $\Phi$ 在邊界一圈爲0，類似於單變量中兩個端點的 $\eta=0$ .
由預備定理
$\frac{\partial F}{\partial y} - (\frac{\partial }{\partial x_1}\frac{\partial F}{\partial (\frac{\partial y}{\partial x_1})} +\frac{\partial }{\partial x_2}\frac{\partial F}{\partial (\frac{\partial y}{\partial x_2})})=0$
上式即爲雙變量函數下的Euler方程，該式和單變量的形式其實是類似的。

參考文獻
[1] 變分法 https://www.youtube.com/playlist?list=PL090BE404EFE679E9. B站上也有相同的資源，但是不全
[2] C M. Bishop. Pattern Recognition and Machine Learning Bishop 附錄D

變分法在機器學習中的應用

目錄

前言

一個概率分佈問題

變分法

預備定理

優化問題與函數集合

Euler方程第一形式

概率分佈問題的解決

問題1的解決

問題2的解決

小結

變分法（後續）

Euler方程第二形式

變分算子

變分算子和微分算子的可交換性

變分算子和積分算子的可交換性

函數與泛函的變分算子

多函數的變分

雙變量單函數的多重積分變分

Nginx R31 doc 官方文檔-01-nginx 如何安裝

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

教學優化算法的簡單介紹

神經網絡反向傳播向量化（CS231n A1 Q4）——已重寫

論文閱讀記錄 1-50篇 20190410-20200316

CS231n Assignment 備忘

HBase常用操作

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結