變分法在機器學習中的應用

禁止轉載

前言

如果只打算看和機器學習有關的變分法,只需要看到小結這一章即可,後面的內容可以不用看。

一個概率分佈問題

介紹變分法之前,先拋出一個和機器學習有關的概率問題:
一個一維分佈p(x)p(x)

  1. 若已知期望爲μ\mu,方差爲σ2\sigma^2,熵最大的情況下pp是什麼分佈?
  2. 不要問題1的條件,換成若已知隨機變量的取值範圍在(a,b)(a,b),熵最大的情況下pp是什麼分佈?

對於問題1,可形式化
maxpp(x)lnp(x)dxs.t.p(x)dx=1xp(x)dx=μ(xμ)2p(x)dx=σ2 \begin{aligned} \max_p &\int_{-\infty}^{\infty}-p(x)\ln p(x)dx \\ s.t. \quad &\int_{-\infty}^{\infty}p(x)dx=1 \\ &\int_{-\infty}^{\infty}xp(x)dx=\mu \\ & \int_{-\infty}^{\infty}(x-\mu)^2p(x)dx=\sigma^2 \end{aligned}

對於問題2,可形式化
maxpabp(x)lnp(x)dxs.t.abp(x)dx=1 \begin{aligned} \max_p &\int_{a}^{b}-p(x)\ln p(x)dx \\ s.t. \quad &\int_{a}^{b}p(x)dx=1 \\ \end{aligned}

仔細觀察之後,會發現上述問題並不好做,似乎和我們以前遇到的優化問題不同,區別在於優化目標pp是一個函數,而不是一個或幾個標量

爲了解決這種優化問題,我們需要引入新的工具——變分法

變分法

  • 泛函:首先引入泛函的概念,泛函指定義域爲函數集合,值域爲實數的“函數”,即函數的函數。而變分法則是處理泛函的數學領域(泛函分析則是研究對象主要爲函數構成的函數空間的數學領域)
  • 歷史:變分法最早是爲了解決最速降線問題而設計的,在理論物理當中應用非常多

預備定理

如果abM(x)η(x)dx=0\int _a^b M(x)\eta(x)dx=0MM(a,b)(a,b)上連續,η\eta爲任意函數,η(a)=0,η(b)=0\eta(a)=0,\eta(b)=0,那麼x(a,b),M(x)=0\forall x \in (a,b),M(x)=0.
證明:
η(x)=M(x)(xa)(xb)\eta(x)=-M(x)(x-a)(x-b),則M(x)η(x)=M(x)2[(xa)(xb)]0M(x)\eta(x)=M(x)^2[-(x-a)(x-b)]\ge 0,所以M(x)=0M(x)=0.

類似的代數證法,可以擴展到多變量問題,若ab[M(x)η(x)+N(x)ξ(x)]dx=0\int _a^b [M(x)\eta(x) +N(x)\xi(x)] dx=0η,ξ\eta, \xi爲任意函數,且在a,ba,b兩點爲0,則M(x)=0,N(x)=0M(x)=0, N(x)=0.

這個定理先放在這,在推導Euler方程最後一步時會用

優化問題與函數集合

給定一個關於函數yˉ(x)\bar{y}(x)的待求優化問題
minyˉx1x2F(x,yˉ,yˉ)dx \min_{\bar{y}} \int_{x_1}^{x_2}F(x, \bar{y}, \bar{y}')dx
而且我們假定yˉ(x1)\bar{y}(x_1)yˉ(x2)\bar{y}(x_2)已知,
如果y(x)y(x)是待求最優解,則函數yˉ\bar{y}可以描述爲
yˉ(x)=y(x)+ϵη(x) \bar {y}(x) = y(x)+\epsilon \eta(x)
其中η\eta是任意函數,滿足η(x1)=0,η(x2)=0\eta (x_1) = 0, \eta(x_2) =0(很重要,後面要用)η\eta可以看作是對FF的一個擾動,ϵ\epsilon是一個實數,通過改變η\etaϵ\epsilon,可以形成關於yˉ\bar{y}的函數族。
而且yˉ\bar{y}的一階導數爲
yˉ=y+ϵη \bar{y}'=y' + \epsilon \eta'
所以原問題的目標函數可以寫爲
x1x2F(x,y+ϵη,y+ϵη)dx(1) \int_{x_1}^{x_2}F(x, y+\epsilon \eta, y' + \epsilon \eta')dx \tag{1}

Euler方程第一形式

注意式(1)中yyη\eta都是關於xx的函數,所以式(1)的積分結果是一個關於ϵ\epsilon的函數,記爲I(ϵ)I(\epsilon)
一方面,觀察到當ϵ0\epsilon \rightarrow 0時,無論η\eta取什麼,都有yˉy\bar{y} \rightarrow y. 也即,無論η\eta取什麼,ϵ=0\epsilon=0都是I(ϵ)I(\epsilon)極小值點,所以
dIdϵϵ=0=0(2) \frac{dI}{d\epsilon} \big| _{\epsilon=0}=0 \tag{2}
另一方面,
dIdϵ=x1x2Fϵdx(3) \frac{dI}{d\epsilon} = \int_{x_1}^{x_2} \frac {\partial F}{\partial \epsilon}dx \tag{3}
對於Fϵ\frac {\partial F}{\partial \epsilon},記u=y+ϵηu= y+\epsilon \etav=y+ϵηv=y' + \epsilon \eta',則
Fϵ=Fxxϵ+Fuuϵ+Fvvϵ=Fuη+Fvη \begin{aligned} \frac {\partial F}{\partial \epsilon} &= \frac {\partial F}{\partial x}\frac {\partial x}{\partial \epsilon} + \frac {\partial F}{\partial u}\frac {\partial u}{\partial \epsilon} + \frac {\partial F}{\partial v}\frac {\partial v}{\partial \epsilon} \\ &= \frac {\partial F}{\partial u} \eta + \frac {\partial F}{\partial v} \eta ' \end{aligned}
帶回式(3)得
dIdϵ=x1x2(Fuη+Fvη)dx \frac{dI}{d\epsilon} = \int_{x_1}^{x_2} ( \frac {\partial F}{\partial u} \eta + \frac {\partial F}{\partial v} \eta ') dx
ϵ=0\epsilon=0時,u=y,v=yu=y,v=y',所以
dIdϵϵ=0=x1x2(Fyη+Fyη)dx(4) \frac{dI}{d\epsilon} \big|_{\epsilon=0} = \int_{x_1}^{x_2} ( \frac {\partial F}{\partial y} \eta + \frac {\partial F}{\partial y'} \eta ') dx \tag{4}
觀察第二項,由分步積分公式udv=uvvdu\int u dv = uv - \int v du可得
x1x2Fyηdx=Fyηx1x2ηd(Fy)(5) \int_{x_1}^{x_2} \frac {\partial F}{\partial y'} \eta ' dx = \frac {\partial F}{\partial y'}\eta \big|_{x_1}^{x_2}- \int \eta d(\frac {\partial F}{\partial y'}) \tag{5}
因爲η(x1)=0,η(x2)=0\eta(x_1)=0, \eta(x_2)=0,所以Fyηx1x2=0\frac {\partial F}{\partial y'}\eta \big|_{x_1}^{x_2}=0,代入式(5)得
x1x2Fyηdx=ηddx(Fy)dx(6) \int_{x_1}^{x_2} \frac {\partial F}{\partial y'} \eta ' dx = - \int \eta \frac{d}{dx}(\frac {\partial F}{\partial y'})dx \tag{6}
把式(6)代入式(4)得
dIdϵϵ=0=x1x2[Fyηηddx(Fy)]dx=x1x2[Fyddx(Fy)]ηdx \begin{aligned} \frac{dI}{d\epsilon} \big|_{\epsilon=0} &= \int_{x_1}^{x_2} \big[ \frac {\partial F}{\partial y} \eta -\eta \frac{d}{dx}(\frac {\partial F}{\partial y'}) \big] dx \\ &= \int_{x_1}^{x_2} \big [ \frac {\partial F}{\partial y} - \frac{d}{dx}(\frac {\partial F}{\partial y'}) \big] \eta dx \end{aligned}
注意η\eta是任意函數,且η(a)=0,η(b)=0\eta(a)=0,\eta(b)=0,又式(2)可得x1x2[Fyddx(Fy)]ηdx=0\int_{x_1}^{x_2} \big [ \frac {\partial F}{\partial y} - \frac{d}{dx}(\frac {\partial F}{\partial y'}) \big] \eta dx=0,所以由預備定理
Fyddx(Fy)=0(7) \frac {\partial F}{\partial y} - \frac{d}{dx}(\frac {\partial F}{\partial y'}) =0 \tag{7}
式(7)即爲Euler方程第一形式,也就是說如果ϵ=0\epsilon=0II的極值,那麼就必須滿足式(7).
FF不是yy'的函數,僅爲F(x,y)F(x,y)時,式(7)簡化爲Fy=0\frac {\partial F}{\partial y}=0.

概率分佈問題的解決

至此,我們就已經可以解決一開始提出的概率分佈問題了。

問題1的解決

把形式化再抄一遍,並把目標函數由max\max換成min\min
minpp(x)lnp(x)dxs.t.p(x)dx=1xp(x)dx=μ(xμ)2p(x)dx=σ2 \begin{aligned} \min_p &\int_{-\infty}^{\infty}p(x)\ln p(x)dx \\ s.t. \quad &\int_{-\infty}^{\infty}p(x)dx=1 \\ &\int_{-\infty}^{\infty}xp(x)dx=\mu \\ & \int_{-\infty}^{\infty}(x-\mu)^2p(x)dx=\sigma^2 \end{aligned}
拉格朗日乘子法把該問題轉化爲無約束問題:
p(x)lnp(x)dx+λ1(p(x)dx1)+λ2(xp(x)dxμ)+λ3((xμ)2p(x)dxσ2)=[p(x)lnp(x)+λ1p(x)+λ2xp(x)+λ3(xμ)2p(x)+C(x,λ1,λ2,λ3)]dx \begin{aligned} &\int_{-\infty}^{\infty}p(x)\ln p(x)dx + \lambda_1 (\int_{-\infty}^{\infty}p(x)dx-1) + \lambda_2(\int_{-\infty}^{\infty}xp(x)dx-\mu) + \lambda_3 (\int_{-\infty}^{\infty}(x-\mu)^2p(x)dx-\sigma^2) \\ =&\int_{-\infty}^{\infty}[p(x)\ln p(x)+\lambda_1 p(x) + \lambda_2xp(x) + \lambda_3 (x-\mu)^2p(x) + C(x,\lambda_1,\lambda_2, \lambda_3)]dx \end{aligned}
其中CC滿足C(x,λ1,λ2,λ3)dx=λ1λ2μλ3σ2\int_{-\infty}^{\infty} C(x,\lambda_1,\lambda_2, \lambda_3)dx=-\lambda_1-\lambda_2 \mu -\lambda_3 \sigma^2,並看作是一個與pp無關的函數。
我們假定p(x)p(x)在無窮遠處爲0,這樣就滿足了上述介紹的優化問題的形式,
F(x,p)=plnp+λ1p+λ2xp+λ3(xμ)2p+CF(x,p)=p\ln p+\lambda_1 p + \lambda_2xp + \lambda_3 (x-\mu)^2p + C,記最優解爲pp^*,則由Euler方程第一形式,可得
0=Fp=lnp+1+λ1+λ2x+λ3(xμ)2 0=\frac {\partial F}{\partial p^*}=\ln p + 1+\lambda_1 + \lambda_2x + \lambda_3(x-\mu)^2

p=exp{1λ1λ2xλ3(xμ)2}(8) p=exp\{-1-\lambda_1-\lambda_2 x - \lambda_3(x-\mu)^2\} \tag{8}
注意這已經是一個高斯函數的形式!
又由三個限制方程
p(x)dx=1xp(x)dx=μ(xμ)2p(x)dx=σ2 \begin{aligned} & \int_{-\infty}^{\infty}p(x)dx=1 \\ &\int_{-\infty}^{\infty}xp(x)dx=\mu \\ & \int_{-\infty}^{\infty}(x-\mu)^2p(x)dx=\sigma^2 \end{aligned}
可以從中解出λ1,λ2,λ3\lambda_1,\lambda_2,\lambda_3,帶回式(8)得
p(x)=1(2πσ2)12exp{(xμ)22σ2} p^*(x)=\frac{1}{(2\pi \sigma^2)^\frac{1}{2}}exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}
所以在給定均值和方差的前提下,最大熵對應的分佈是高斯分佈。

問題2的解決

把形式化再抄一遍,並把目標函數由max\max換成min\min
minpabp(x)lnp(x)dxs.t.abp(x)dx=1 \begin{aligned} \min_p &\int_{a}^{b}p(x)\ln p(x)dx \\ s.t. \quad &\int_{a}^{b}p(x)dx=1 \\ \end{aligned}
同問題1,先用拉格朗日乘子法轉化成無約束問題:
abp(x)lnp(x)dx+λ1(abp(x)dx1)=ab[p(x)lnp(x)+λ1p(x)λ1ba]dx \begin{aligned} &\int_{a}^{b}p(x)\ln p(x)dx + \lambda_1 (\int_{a}^{b}p(x)dx-1) \\ =&\int_{a}^{b}[p(x)\ln p(x)+\lambda_1 p(x) - \frac{\lambda_1}{b-a}]dx \end{aligned}
我們假定p(x)p(x)a,ba,b兩點概率爲0,這樣就滿足了上述介紹的優化問題的形式,
F(x,p)=plnp+λ1pλ1baF(x,p)=p\ln p+\lambda_1 p -\frac{\lambda_1}{b-a},記最優解爲pp^*,則由Euler方程第一形式,可得
0=Fp=lnp+1+λ1 0=\frac {\partial F}{\partial p^*}=\ln p + 1+\lambda_1

p=exp{1λ1}(9) p^*=exp\{-1-\lambda_1\} \tag{9}
注意,這已經是一個均勻分佈的形式!
又由限制方程
p(x)dx=1 \begin{aligned} & \int_{-\infty}^{\infty}p(x)dx=1 \\ \end{aligned}
可以從中解出λ1\lambda_1,帶回式(9)得
p(x)=1ba p^*(x)=\frac{1}{b-a}
所以在有限區間內,最大熵對應的分佈是均勻分佈。此時無需均值和方差的約束。

小結

  • 變分法在機器學習當中是一個很好用的技巧,其實機器學習當中輸入爲函數,輸出爲實數,這樣的泛函例子並不少見,例如各種散度——衡量了兩個分佈之間的差異性,散度的泛函又引入了變分推斷當中,例如變分自編碼器
  • 機器學習當中遇到的大多數變分問題都較爲簡單,往往被積函數FF和待求函數yy的導數是無關的,也即只需要滿足Euler方程中Fy=0\frac {\partial F}{\partial y}=0就可以
  • 後文將繼續介紹完整的變分法理論,後續理論在機器學習當中的使用較爲罕見,看到這裏就可以提前退場了,如果看的很爽,那麼就跟我繼續看下去吧,2333

變分法(後續)

Euler方程第二形式

注意到
dFdx(x,y,y)=Fxdxdx+Fydydx+Fydydx=Fx+Fyy+Fyy(10) \begin{aligned} \frac{dF}{dx}(x,y,y') &=\frac{\partial F}{\partial x} \frac{dx}{dx}+ \frac{\partial F}{\partial y} \frac{dy}{dx} + \frac{\partial F}{\partial y'} \frac{dy'}{dx} \\ &= \frac{\partial F}{\partial x}+ \frac{\partial F}{\partial y}y'+ \frac{\partial F}{\partial y'} y'' \tag{10} \end{aligned}
因爲
ddx(yFy)=yFy+yddx(Fy)(11) \frac{d}{dx}(y'\frac{\partial F}{\partial y'}) = y'' \frac{\partial F}{\partial y'} + y'\frac{d}{dx}(\frac{\partial F}{\partial y'}) \tag{11}
把式(10)等號右側第三項帶入式(11)可得
ddx(yFy)=[dFdx(x,y,y)FxFyy]+yddx(Fy)=dFdx(x,y,y)Fxy[Fyddx(Fy)] \begin{aligned} \frac{d}{dx}(y'\frac{\partial F}{\partial y'}) &=\big[\frac{dF}{dx}(x,y,y') - \frac{\partial F}{\partial x}- \frac{\partial F}{\partial y}y' \big] + y'\frac{d}{dx}(\frac{\partial F}{\partial y'}) \\ &=\frac{dF}{dx}(x,y,y') - \frac{\partial F}{\partial x}- y' \big[\frac{\partial F}{\partial y}- \frac{d}{dx}(\frac{\partial F}{\partial y'})\big] \end{aligned}
注意到Fyddx(Fy)\frac{\partial F}{\partial y}- \frac{d}{dx}(\frac{\partial F}{\partial y'})爲Euler方程的第一種形式,所以上式繼續化簡爲
ddx(yFy)=dFdx(x,y,y)Fx \begin{aligned} \frac{d}{dx}(y'\frac{\partial F}{\partial y'}) =\frac{dF}{dx}(x,y,y') - \frac{\partial F}{\partial x} \end{aligned}

Fxddx(FyFy)=0(12) \begin{aligned} \frac{\partial F}{\partial x} - \frac{d}{dx}(F-y'\frac{\partial F}{\partial y'}) =0 \end{aligned} \tag{12}
式(12)即爲Euler方程第二形式,注意如果FF不顯含xx,那麼Fx=0\frac{\partial F}{\partial x}=0,則有FyFy=CF-y'\frac{\partial F}{\partial y'}=C. 在這種情況下,第二形式非常方便。

變分算子

yˉ=y+ϵη(x)=y+δy \bar{y}=y + \epsilon \eta(x) = y + \delta y
其中,δy\delta y就稱作yy的變分

貼參考文獻[1]的一張圖,說明變分和微分的區別
在這裏插入圖片描述

  • 微分:當xx變化時,yy的變化
  • 變分:xx不變,人爲的對yy加擾動

一般我們認爲自變量的變分爲0(或者說不能變分),例如y(x)y(x),認爲δx=0\delta x = 0,因爲在自變量上加擾動沒有意義,自變量這個時候應該看作是一個“標準”,其他量以這些“標準”爲依據。

變分算子和微分算子的可交換性

ddxδy=ddxϵη(x)=ϵddxη(x)=ϵη \frac{d}{dx}\delta y=\frac{d}{dx}\epsilon \eta(x) = \epsilon \frac{d}{dx} \eta(x)=\epsilon \eta'
另一方面
δddxy=yˉy=ϵη \delta \frac{d}{dx} y = \bar{y'} - y' = \epsilon \eta'
所以,變分算子和微分算子的順序可以交換

變分算子和積分算子的可交換性

δF(x)dx=F(x)dxF(x)dx=Fˉ(x)dxF(x)dx=[Fˉ(x)F(x)]dx=δF(x)dx \begin{aligned} \delta \int F(x)dx &= \overline {\int F(x)dx} - \int F(x)dx = \int \bar F(x)dx - \int F(x)dx \\ & = \int [\bar F(x) - F(x)]dx = \int \delta F(x) dx \end{aligned}
所以,變分算子和積分算子的順序可以交換

函數與泛函的變分算子

對於F(x,y,z)F(x,y,z)
δF=Fxδx+Fyδy+Fzδz \delta F = \frac{\partial F}{\partial x}\delta x + \frac{\partial F}{\partial y}\delta y + \frac{\partial F}{\partial z}\delta z
上式子說明了對x,y,zx,y,z的擾動,是如何產生對FF的擾動的
除式的變分公式:
δ(fg)=gδffδgg2 \delta (\frac{f}{g}) = \frac{g\delta f - f\delta g}{g^2}

多函數的變分

對於多函數的問題,先以兩個函數爲例:
minfˉ,gˉI=x1x2F(x,fˉ,gˉ,fˉ,gˉ)dx \min_{\bar{f},\bar{g}} I=\int_{x_1}^{x_2}F(x,\bar{f},\bar{g},\bar{f}',\bar g')dx
類似單變量的方法令最優解爲f,gf,g,則有
fˉ=f+ϵηgˉ=g+ϵξ \bar f = f + \epsilon \eta \\ \bar g = g+ \epsilon \xi
一方面得到
dI(ϵ)dϵϵ=0=0 \frac{dI(\epsilon)}{d\epsilon} \big|_{\epsilon=0} = 0
另一方面
dI(ϵ)dϵϵ=0=x1x2(Ffη+Fgξ+Ffη+Fgξ)dx \frac{dI(\epsilon)}{d\epsilon} \big |_{\epsilon=0} =\int_{x_1}^{x_2} (F_f \eta + F_g \xi + F_{f'} \eta' + F_{g'} \xi')dx
用分佈及分公式可得
x1x2Ffηdx=Ffηx1x2x1x2ηdFf=x1x2ηddx(Ff)dx \begin{aligned} \int_{x_1}^{x_2} F_{f'} \eta' dx &= F_{f'}\eta \big|_{x_1}^{x2} - \int_{x_1}^{x_2} \eta dF_{f'} \\ &= - \int_{x_1}^{x_2} \eta \frac{d}{dx}(F_{f'} )dx \end{aligned}
gg做類似的處理,帶回得
dI(ϵ)dϵϵ=0=x1x2[(FfddxFf)]η+[(FgddxFg)]ξdx \frac{dI(\epsilon)}{d\epsilon} \big |_{\epsilon=0} = \int _{x_1}^{x_2}[(F_f - \frac{d}{dx}F_{f'})]\eta+[(F_g - \frac{d}{dx}F_{g'})]\xi dx
由預備定理得
FfddxFf=0FgddxFg=0 F_f - \frac{d}{dx}F_{f'} = 0 \\ F_g - \frac{d}{dx}F_{g'} = 0
上式爲多變量得Euler方程,可以看到它與單變量得形式是一致的。對於更多變量得情況,推導結果類似。

雙變量單函數的多重積分變分


I(ϵ)=DF(x1,x2,yˉ,yˉx1,yˉx2)dx1dx2 I(\epsilon) = \iint_D F(x_1, x_2, \bar y, \frac{\partial \bar y}{\partial x_1}, \frac{\partial \bar y}{\partial x_2})dx_1dx_2
則有
dIdϵϵ=0=D[Fyyϵ+F(yx1)ϵ(yx1)+F(yx2)ϵ(yx2)]dx1dx2=D[Fyyϵ+F(yx1)x1(yϵ)+F(yx2)x2(yϵ)]dx1dx2 \begin{aligned} \frac{dI}{d\epsilon} \big|_{\epsilon=0} &= \iint_D \big[\frac{\partial F}{\partial y} \frac{\partial y}{\partial \epsilon} + \frac{\partial F}{\partial (\frac{\partial y}{\partial x_1})} \frac{\partial }{\partial \epsilon}(\frac{\partial y}{\partial x_1}) + \frac{\partial F}{\partial (\frac{\partial y}{\partial x_2})} \frac{\partial }{\partial \epsilon}(\frac{\partial y}{\partial x_2}) \big] dx_1dx_2 \\ &= \iint_D \big[\frac{\partial F}{\partial y} \frac{\partial y}{\partial \epsilon} + \frac{\partial F}{\partial (\frac{\partial y}{\partial x_1})} \frac{\partial }{\partial x_1}(\frac{\partial y}{\partial \epsilon}) + \frac{\partial F}{\partial (\frac{\partial y}{\partial x_2})} \frac{\partial }{\partial x_2}(\frac{\partial y}{\partial \epsilon}) \big] dx_1dx_2 \end{aligned}

首先給出格林公式
D[Px1+Qx2]dx1dx2=CPdx2Qdx1(13) \iint_D \big[\frac{\partial P}{\partial x_1} + \frac{\partial Q}{\partial x_2} \big]dx_1dx_2 = \int_C Pdx_2 - Qdx_1 \tag{13}
如果令
P(x1,x2)=Φ(x1,x2)A(x1,x2)Q(x1,x2)=Φ(x1,x2)B(x1,x2) P(x_1,x_2) = \Phi(x_1, x_2)A(x_1, x_2) \qquad Q(x_1,x_2) = \Phi(x_1, x_2)B(x_1, x_2)
帶回式(13)得
D[AΦx1+BΦx2]dx1dx2=D(Ax1+Bx2)Φdx1dx2+C(Adx2Bdx1)Φ(14) \iint_D\big[ A\frac{\partial \Phi}{\partial x_1} +B\frac{\partial \Phi}{\partial x_2} \big]dx_1dx_2 = -\iint_D (\frac{\partial A}{\partial x_1} +\frac{\partial B}{\partial x_2})\Phi dx_1dx_2 + \int_C (Adx_2 - Bdx_1)\Phi \tag{14}

所以,如果令
Φ=yϵA=F(yx1)B=F(yx2)\Phi = \frac{\partial y}{\partial \epsilon} \qquad A = \frac{\partial F}{\partial (\frac{\partial y}{\partial x_1})} \qquad B = \frac{\partial F}{\partial (\frac{\partial y}{\partial x_2})}
yˉ=y+ϵΦ\bar y = y + \epsilon \Phi,那麼
dIdϵ=D[FyΦ+Ax1Φ+Bx2Φ]dx1dx2 \begin{aligned} \frac{dI}{d\epsilon} &= \iint_D \big[\frac{\partial F}{\partial y} \Phi +A \frac{\partial }{\partial x_1}\Phi + B \frac{\partial }{\partial x_2}\Phi \big] dx_1dx_2 \end{aligned}
把後兩項用格林公式(14)替換,得到
dIdϵ=D[Fy(Ax1+Bx2)]Φdx1dx2 \begin{aligned} \frac{dI}{d\epsilon} &= \iint_D \big[\frac{\partial F}{\partial y} - (\frac{\partial A}{\partial x_1} +\frac{\partial B}{\partial x_2}) \big] \Phi dx_1dx_2 \end{aligned}
注意式(14)中的線積分C(Adx2Bdx1)Φ=0\int_C (Adx_2 - Bdx_1)\Phi=0,所以線積分直接捨去了,這裏非常厲害!!!
線積分爲0的原因在於Φ\Phi在邊界一圈爲0,類似於單變量中兩個端點的η=0\eta=0.
由預備定理
Fy(x1F(yx1)+x2F(yx2))=0 \frac{\partial F}{\partial y} - (\frac{\partial }{\partial x_1}\frac{\partial F}{\partial (\frac{\partial y}{\partial x_1})} +\frac{\partial }{\partial x_2}\frac{\partial F}{\partial (\frac{\partial y}{\partial x_2})})=0
上式即爲雙變量函數下的Euler方程,該式和單變量的形式其實是類似的。

參考文獻
[1] 變分法 https://www.youtube.com/playlist?list=PL090BE404EFE679E9. B站上也有相同的資源,但是不全
[2] C M. Bishop. Pattern Recognition and Machine Learning Bishop 附錄D

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章