正規方程組(The normal equations)

原創

2020-02-26 00:29

2. 正規方程組

上一節的梯度下降是一種最小化成本函數J 的方法。這一節我們將介紹另一種算法也可以實現該功能且不需要使用迭代。正規方程組通過計算成本函數對每個θj 的偏導數，求出偏導爲零的點來成本函數的最小值。爲了不必寫大量的代數式和矩陣導數，讓我們約定一些矩陣計算的符號。

2.1 矩陣導數

對於一個函數f:Rm×n→R ，它將m*n的矩陣映射爲一個實數，我們定義f 對A的偏導爲：

\nabla A f (A) = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ \partial f \partial A 11 ⋮ \partial f \partial A m 1 \dots ⋱ \dots \partial f \partial A 1 n ⋮ \partial f \partial A m n ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥

舉個例子，如果A=[A11A21A12A22] 是一個2*2的矩陣，函數f 定義如下：

f (A) = 3 2 A 11 + 5 A 212 + A 21 A 22 .

根據矩陣偏導公式可求得：

\nabla A f (A) = ⎡ ⎣ 3 2 A 22 10 A 12 A 21 ⎤ ⎦

我們引入矩陣的跡，寫作“tr ”。對於一個n階方陣A，它的跡是其對角線元素之和：

t r A = \sum i = 1 n A i i

如果a是一個實數（也可看成1-by-1矩陣），有tra=a 。跡操作符有這樣的性質：如果矩陣A 和B 滿足AB 是方陣，則有trAB=trBA ，由此可推得：

t r A B C = t r C A B = t r B C A t r A B C D = t r D A B C = t r C D A B = t r B C D A

跡操作符的下列性質也容易證明。其中A 和B 是方陣，a 是實數：

t r A t r (A + B) t r a A = t r A T = t r A + t r B = a t r A

結合矩陣的跡和矩陣導數，可以給出下列公式：

\nabla A t r A B \nabla A T f (A) \nabla A t r A B A T C \nabla A | A | = B T = (\nabla A f (A)) T = C A B + C T A B T = | A | (A - 1) T (1) (2) (3) (4)

其中(4)只在矩陣A爲滿秩矩陣時成立。

2.2 二顧最小方差

瞭解了矩陣導數這一工具後，爲了實現最小化J(θ) 的目標，我們先設法將成本函數J 用向量表示。
給定一個訓練集，我們將其以m-by-n矩陣X 的形式表示，其中每一行代表一個訓練樣本：

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ - (x (1)) T - - (x (2)) T - ⋮ - (x (m)) T - ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

同時將包含所有目標值的y⃗ 表示爲一個m維的列向量：

y ⃗ = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ y (1) y (2) ⋮ y (m) ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥

因爲hθ(x(i))=(x(i))Tθ ，我們可以很容易地證明：

X θ - y ⃗ = ⎡ ⎣ ⎢ ⎢ ⎢ (x (1)) T θ ⋮ (x (m)) T θ ⎤ ⎦ ⎥ ⎥ ⎥ - ⎡ ⎣ ⎢ ⎢ y (1) ⋮ y (m) ⎤ ⎦ ⎥ ⎥ = ⎡ ⎣ ⎢ ⎢ h θ (x (1)) - y (1) ⋮ h θ (x (m)) - y (m) ⎤ ⎦ ⎥ ⎥

對於一個向量z ，有zTz=∑iz2i ，則：

1 2 (X θ - y ⃗) T (X θ - y ⃗) = 1 2 \sum i = 1 m (h θ (x (i)) - y (i)) 2 = J (θ)

最後要最小化J ，我們要求解它關於θ 的導數：

\nabla θ J (θ) = \nabla θ 1 2 (X θ - y ⃗) T (X θ - y ⃗) = 1 2 \nabla θ (θ T X T X θ - θ T X T y ⃗ - y ⃗ T X θ + y ⃗ T y ⃗) = 1 2 \nabla θ t r (θ T X T X θ - θ T X T y ⃗ - y ⃗ T X θ + y ⃗ T y ⃗) = 1 2 \nabla θ (t r θ T X T X θ - 2 t r y ⃗ T X θ) = 1 2 (X T X θ + X T X θ - 2 X T y ⃗) = X T X θ - X T y ⃗

爲了最小化J(θ) ，我們要設法使其偏導數爲零，這樣就可推出正規方程：

X T X θ = X T y ⃗

那麼權重矩陣θ ，應該調整爲：

θ = (X T X) - 1 X T y ⃗

舉個例子，硝酸鈉的溶解度試驗中，測得不同溫度x（單位：C）下，硝酸鈉溶解於水中的溶解度y%的數據如下：

溫度	0	4	10	15	21	29	36	51	68
溶解度（%）	66.7	71.0	76.3	80.6	85.7	92.9	99.4	113.6	125.1

求y 和x 的經驗迴歸函數。

從上面的數據中可以，寫出輸入特徵矩陣X 和目標變量矩陣y⃗ 。

X y ⃗ = [1014110115121129136151168] T = [66.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125.1] T

代入公式θ=(XTX)−1XTy⃗ 中求解權重θ 的值，得：

θ 0 = 67.5078, θ 1 = 0.8706

於是所求的線性迴歸假設爲：

y = 67.5078 + 0.8706 x .

下圖將訓練樣本和迴歸函數繪製在一起：

實現的python代碼如下：

# coding=utf-8
import matplotlib.pyplot as plt
import numpy as np

# 輸入特徵溫度和標籤溶解度
X = np.array([0 , 4, 10, 15, 21, 29, 36, 51, 68])
y = np.array([[66.7, 71.0, 76.3, 80.6, 85.7, 92.9, 99.4, 113.6, 125.1]])
# X轉化爲n*1的矩陣
X_0 = np.ones(len(X)).astype(dtype=np.int)
X_new = np.array([X_0, X])

# 根據求參數公式theta = (X.T * X)^-1 * X.T * y求解
temp = np.matrix(np.dot(X_new, X_new.T))
ans_matrix = temp ** -1 * X_new * y.T
# 訓練後的模型，提取截距和係數
intercept = np.array(ans_matrix)[0][0]
coef = np.array(ans_matrix)[1][0]
# x從0到70，y=ax+b
lx = np.arange(0, 70)
ly = coef * lx + intercept

# 繪製擬合直線
plt.plot(lx, ly, color='blue')
# 繪製數據點和x軸y軸標題
plt.scatter(X, y, c='red', s=40, marker='o')
plt.xlabel('Temperature(C)')
plt.ylabel('Solubility(%)')
plt.show()

在特徵維度少的情況下，正規方程組的計算會比梯度下降法快很多，推薦計算線性迴歸時多使用該方法。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

正規方程組(The normal equations)

2. 正規方程組

2.1 矩陣導數

2.2 二顧最小方差

python gdal 安裝使用（Windows， python 3.6.8）

論文翻譯——基於數據的最優直方圖

綜述論文：深度學習在心臟圖像分割的應用

論文翻譯——使用深度卷積網絡處理ImageNet分類

正規化和模型選擇(Regularization and model selection)

資料翻譯——核密度估計簡介

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結