數值優化：理解L-BFGS算法

譯自《Numerical Optimization: Understanding L-BFGS》，本來只想作爲學習CRF的補充材料，讀完後發現收穫很多，把許多以前零散的知識點都串起來了。對我而言，的確比零散地看論文要輕鬆得多。原文並沒有太多關注實現，對實現感興趣的話推薦原作者的golang實現。

數值優化是許多機器學習算法的核心。一旦你確定用什麼模型，並且準備好了數據集，剩下的工作就是訓練了。估計模型的參數（訓練模型）通常歸結爲最小化一個多元函數，其中輸入是一個高維向量，也就是模型參數。換句話說，如果你求解出：

那麼*就是最佳的模型參數（當然跟你選擇了什麼目標函數有關係）。

在這篇文章中，我將重點放在講解L-BFGS算法的無約束最小化上，該算法在一些能用上批處理優化的ML問題中特別受歡迎。對於更大的數據集，則常用SGD方法，因爲SGD只需要很少的迭代次數就能達到收斂。在以後的文章中，我可能會涉及這些技術，包括我個人最喜歡的AdaDelta 。

注：在整個文章中，我會假設你記得多元微積分。所以，如果你不記得什麼是梯度或海森矩陣，你得先複習一下。

牛頓法

大多數數值優化算法都是迭代式的，它們產生一個序列，該序列最終收斂於，使得達到全局最小化。假設，我們有一個估計，我們希望我們的下一個估計有這種屬性：。

牛頓的方法是在點附近使用二次函數近似。假設是二次可微的，我們可以用在點的泰勒展開來近似。

其中，和分別爲目標函數在點處的梯度和Hessian矩陣。當時，上面的近似展開式是成立的。你可能記得微積分中一維泰勒多項式展開，這是其推廣。

爲了簡化符號，將上述二次近似記爲，我們把生成這樣的二次近似的迭代算法中的一些概念簡記如下：

不失一般性，我們可以記，那麼上式可以寫作：

其中和分別表示目標函數在點處的梯度和Hessian矩陣。

我們想找一個，使得在的二次近似最小。上式對求導：

任何使得的都是的局部極值點，如果我們假設是凸函數，則是正定的，那麼局部極值點就是全局極值點（凸二次規劃）。

解出：

這就得到了一個很好的搜索方向，在實際應用中，我們一般選擇一個步長α，即按照下式更新：

使得相比的減小量最大化。

迭代算法僞碼：

步長α的確定可以採用任何line search算法，其中最簡單的一種是backtracking line search。該算法簡單地選取越來越小的步長α，直到的值小到滿意爲止。關於line search算法的詳情請參考Line Search Methods.pdf或Lecture 5- Gradient Descent.pdf。

在軟件工程上，我們可以將牛頓法視作實現了下列Java接口的一個黑盒子：

public interface TwiceDifferentiableFunction
{
// compute f(x)
double valueAt(double[] x);
// compute grad f(x)
double[] gradientAt(double[] x);
// compute inverse hessian H^-1
double[][] inverseHessian(double[] x);
}

如果你有興趣，你還可以通過一些枯燥無味的數學公式，證明對任意一個凸函數，上述算法一定可以收斂到一個唯一的最小值，且不受初值的影響。對於非凸函數，上述算法仍然有效，但只能保證收斂到一個局部極小值。在上述算法於非凸函數的實際應用中，用戶需要注意初值的選取以及其他算法細節。

巨大的海森矩陣

牛頓法最大的問題在於我們必須計算海森矩陣的逆。注意在機器學習應用中，的輸入的維度常常與模型參數對應。十萬維度的參數並不少見（SVM中文文本分類取詞做特徵的話，就在十萬這個量級），在一些圖像識別的場景中，參數可能上十億。所以，計算海森矩陣或其逆並不現實。對許多函數而言，海森矩陣可能根本無法計算，更不用說表示出來求逆了。

所以，在實際應用中牛頓法很少用於大型的優化問題。但幸運的是，即便我們不求出在的精確，而使用一個近似的替代值，上述算法依然有效。