凸優化問題的對偶

Lagrange Duality(拉格朗日對偶)

對於在\(g_i(x)=0,h_i(x)\leq 0\)的約束下最小化\(f(x)\)的問題(並不要求convex),我們有Lagrange函數\(L(\vec x,\vec \lambda,\vec \mu)=f(\vec x)+\vec\lambda^\top \vec g(\vec x)+\vec\mu^\top\vec h (\vec x)\)\((x^*,\lambda^*,\mu^*)\)處的KKT條件可以簡潔地描述爲\(\nabla _{x,\lambda}L(x^*,\lambda^*,\mu^*)=0\)\(\nabla_\mu L(x^*,\lambda^*,\mu^*)\leq 0\)\((\mu^*)^\top \nabla _\mu L(x^*,\lambda^*,\mu^*)=0\),其中\(\mu^* \in \R^k_{\geq 0}\)

我們注意到可行中\(x\)始終滿足Lagrang函數是\(f\)的下界,因爲可行域中始終成立\(g=0,h\leq0\),而\(\mu\geq 0\),因此\(L(x,\lambda,\mu)\leq f(x)\)。而又有\(L(x,0,0)=f(x)\)。所以\(f\)本質上就是\(L\)的最大值:\(f(x)=\max\limits_{\lambda; \ \mu\geq 0} L(x,\lambda,\mu)\)。於是最優解\(x^*\)就可以表示爲\(f(x^*)=\min\limits_{x \in \text{dom} f}\max\limits_{\lambda; \ \mu \geq 0} L(x,\lambda,\mu)\)

一般情況下,\(\min\)\(\max\)的順序是不能交換的。事實上任何時候我們都有以下min-max不等式:\(\min\limits_{x \in X}\max\limits_{y \in Y}F(x,y)\geq \max\limits_{y \in Y}\min\limits_{x \in X}F(x,y)\),也就是說先求關於某變量的最大值再求另一變量的最小值總是能得到一個更大的結果。因爲對於任意的\(y_0\)\(\min\limits_{x \in X}F(x,y_0)\leq \min\limits_{x \in X}\max\limits_{y \in Y}F(x,y)\),右側是一個定值,因此當對\(y_0\)\(\max\)時也成立,這樣就得到了min-max不等式。這一事實不是出乎意料的,因爲我們早已接觸過類似問題。例如,在研究數列極限時我們證明過上極限始終大於等於下極限,而上極限和下極限本身就可以用min-max來定義。

所以對於\(\min\limits_{x \in \text{dom} f}\max\limits_{\lambda; \ \mu \geq 0} L(x,\lambda,\mu)\),我們有\(\min\limits_{x \in \text{dom} f}\max\limits_{\lambda; \ \mu \geq 0} L(x,\lambda,\mu)\geq \max\limits_{\lambda; \ \mu \geq 0}\min\limits_{x \in \text{dom} f} L(x,\lambda,\mu)\)。記\(\min\limits_{x \in \text{dom} f} L(x,\lambda,\mu)=\phi(\lambda,\mu)\),就有\(\min\limits_{x \in \text{dom} f}f(x)\geq \max\limits_{\lambda; \ \mu \geq 0}\phi(\lambda,\mu)\),簡寫爲\(f^* \geq \phi^*\)。這就是最優化問題的對偶性!\(\phi(\lambda,\mu)\)稱爲原問題的Lagrange對偶函數,\(\max\limits_{\lambda; \ \mu \geq 0}\phi(\lambda,\mu)\)稱爲原問題的對偶問題。注意這不僅僅在convex時成立,而是對於任何帶等式和不等式約束的最優化問題中成立。如果原問題恰好是線性規劃問題,它的對偶問題恰好就是我們之前得到的線性規劃的對偶規劃。

線性規劃是具有強對偶性的,也即對偶規劃和原問題取到相同的極值,gap爲0。現在我們看到對於任何一般的最優化問題,都有\(f^* \geq \phi^*\),也即弱對偶性對一般的最優化問題是恆成立的。那麼我們自然要追問,滿足什麼條件時一般的最優化問題也有強對偶性?下面的定理告訴我們對於凸優化問題而言,如果在\(x^*\)處KKT條件成立(這意味着\(x^*\)是最優解,並且有乘子\(\lambda^*,\mu^*\)存在),那麼強對偶性成立,同時\((\lambda^*,\mu^*)\)恰好是對偶問題的最優解。爲此,我們只需要說明存在\(x,\lambda,\mu\)使得\(f(x)=\phi(\lambda,\mu)\)成立。對於我們根據KKT條件得到的\(\lambda^*,\mu^*\)\(\phi(\lambda^*,\mu^*)=\min\limits_{x \in \text{dom} f} L(x,\lambda^*,\mu^*)\),而在凸優化問題中\(f\)是凸函數,\(g,h\)是仿射函數,因此\(L(x,\lambda^*,\mu^*)\)關於\(x\)是凸函數,而根據KKT條件\(\nabla _x L(x^*,\lambda^*,\mu^*)=0\),因此\(x^*\)就是\(L(x,\lambda^*,\mu^*)\)的極小值點,而恰好\(L(x^*,\lambda^*,\mu^*)=f(x^*)\),因此\(\phi(\lambda^*,\mu^*)=f(x^*)\)。(反過來,如果強凸成立,並且原問題和對偶問題都有有限最優解,記爲\(x'\)\((\lambda',\mu')\),那麼可以驗證\((x',\lambda',\mu')\)在原問題中滿足KKT條件。)

引入對偶的一個重要原因就在於,對偶問題相較於原問題而言往往更容易求解。例如,任何優化問題(不一定convex)的對偶問題中,Lagrang對偶函數\(\phi(\lambda,\mu)\)一定是concave的,這意味着哪怕一個不是凸優化問題的對偶問題也總是一個凸優化問題!這是因爲\(L(x,\lambda,\mu)\)是關於\(\lambda,\mu\)的仿射函數,仿射函數既是convex的又是concave的。\(\phi(\lambda,\mu)\)定義爲了\(L\)關於\(x\)逐點求最小值,我們證明過一列concave函數(不要求可數)逐點求最小值後得到的函數依然是concave的,因此\(\phi\)一定是concave函數。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章