文章目錄

2.1 線性迴歸

參考

1. 什麼是迴歸？

分類的目標變量是標稱型數據，而回歸是對連續型數據的預測。迴歸分析是一種預測建模技術，研究因變量和自變量之間的關係，如銷售量預測或製造缺陷預測等，下圖中的紅線表示的就是迴歸曲線。

迴歸不同於分類和聚類，他們的區別可以用下圖形象的表達出來。

2. 迴歸模型

這裏使用sklearn進行代碼實現，如果想手動實現的話，可以看《機器學習實戰》，那本書有部分的算法實現，下面介紹的算法統一使用的函數如下

加載數據 數據文件點這裏

def load_data(file_path):
    num_feat = len(open(file_path).readline().split("\t")) - 1
    data_mat = list()
    lable_mat = list()
    fr = open(file_path)
    for line in fr.readlines():
        line_arr = list()
        cur_line = line.strip().split("\t")
        for i in range(num_feat):
            line_arr.append(float(cur_line[i]))
        data_mat.append(line_arr)
        lable_mat.append(float(cur_line[-1]))
    return data_mat, lable_mat

繪製迴歸結果

def plot_regression(model, x_data, y_data):
    x_data = np.mat(x_data)
    y_data = np.mat(y_data).T
    x_train, y_train = x_data[:150,1:], y_data[:150,:]
    x_test, y_test = x_data[150:,1:], y_data[150:,:]
    model.fit(x_train, y_train)
    score = model.score(x_test, y_test)
    result = model.predict(x_train)
    plt.figure()
    srt_idx = x_train.argsort(0)
    plt.plot(x_train[srt_idx].reshape(-1,1), y_train[srt_idx].reshape(-1,1), 'go', label = "true value")
    plt.plot(x_train[srt_idx].reshape(-1,1), result[srt_idx].reshape(-1,1), 'ro-', label = "predict value")
    plt.title("score:%f" % score)
    plt.legend()
    plt.show()

2.1 線性迴歸

2.1.1 普通線性迴歸

提到迴歸，首先想到的肯定是線性迴歸(linear regression)，因爲它是最容易理解，最簡單的迴歸方法。設待擬合的數據對象爲 $X=\{x_1,x_2,...,x_m\}$ ，其對應的真實值爲 $y=\{y_1,y_2,...,y_m\}$ ，線性模型可以寫爲
$\hat{y}=Xw$
其中， $w$ 爲迴歸係數，我們用平方誤差來衡量擬合的誤差
$L(X)=\sum_{i=1}^{m}\left ( y_i-x_{i}^{T}w\right )^2=\left ( y-Xw\right )^2$
上式對 $w$ 求導等於0可以得到
$\frac{\partial L(X)}{\partial w}=\frac{\partial (y^Ty-w^TX^Ty-y^TXw-w^TX^TXw)}{\partial w}=2X^T\left ( y-Xw\right )=0$
可以得到
$\hat{w}=(X^TX)^{-1}X^Ty$
上述方式容易對訓練數據欠擬合，一種好的解決方式是局部加權線性迴歸，爲每個誤差增加一個權重 $w_i$ (這裏的 $w$ 並不是上面的 $\hat{w}$ )，此時誤差函數可以寫成
$L(X)=\sum_{i=1}^{m}w_i\left ( y_i-x_{i}^{T}w\right )^2=[W( y-Xw)]^2$
其中， $W$ 是一個對角矩陣，也叫做核，核的類型可以自由選擇，最常見的就是高斯核，高斯覈對應的權重如下
$W(j,j)=\exp\left(\frac{\|x_{i}-x_{j}\|^{2}}{-2k^2}\right)$
注意：這裏的 $x_i$ 是指的單個數據，每個數據對應的權重矩陣都不同。
同樣的，對新的誤差函數 $L(X)$ 求導可以得到此時迴歸係數爲
$\hat{w}=(X^TWX)^{-1}X^TWy$
這裏的 $W$ 其實是 $W^TW$ ，但是使用 $W$ 代替具有同樣的意義並且簡便。

sklearn調用代碼：

x_data, y_data = load_data("ex0.txt")
from sklearn import linear_model
# 線性迴歸
model_linear_regression = linear_model.LinearRegression()
plot_regression(model_linear_regression, x_data, y_data)

繪製出的迴歸曲線如下圖所示

2.1.2 嶺迴歸

我們看線性迴歸中的輸入集 $X=\{x_1,x_2,...,x_m\}$ ，假設其維度爲 $n$ ，當 $n>m$ 的時候， $X$ 不是滿秩矩陣，無法求解逆矩陣，這時候就需要用到**嶺迴歸(ridge regression)**了，在矩陣 $X^TX$ 上加上一個 $\lambda I$ 讓其成爲滿秩矩陣，那麼這個時候的迴歸係數爲
$\hat{w}=(X^TX+\lambda I)^{-1}X^Ty$

sklearn調用代碼：

x_data, y_data = load_data("ex0.txt")
from sklearn import linear_model
# Ridge迴歸
model_ridge = linear_model.Ridge(alpha = 0.01)
plot_regression(model_ridge, x_data, y_data)

繪製出的迴歸曲線如下圖所示

2.2 決策樹迴歸

決策樹學習常用的算法有ID3、C4.5、CART(classification and regression tree)，這介紹用於迴歸的決策樹CART，具體的方法理論參考李航的《統計學習方法》。

我們考慮輸入的訓練數據 $D=\{X,y\}=\{(x_1,y_1),(x_1,y_1),...,(x_m,y_m)\}$ ，一個迴歸樹對應着輸入空間（即特徵空間）的一個劃分以及在劃分的單元上的輸出值，假設已將輸入空間劃分爲 $M$ 個單元 $R_1,R_2,...,R_M$ ，並且在每一個單元上都有一個固定的輸出值 $c_m$ ，那麼迴歸樹模型可以表示爲
$f(x)=\sum_{m=1}^{M}c_mI(x \in R_m)$
其中，函數 $I$ 對應着0-1函數。當輸入空間的劃分確定時，可以用平方誤差 $\sum_{x_i \in R_m}(y_i-f(x_i))$ 來表示迴歸樹對於訓練數據的預測誤差，用平方誤差最小的準則求解每個單元上的最優輸出值，那麼單元 $R_m$ 上的最優值 $\hat {c_m}$ 是 $R_m$ 上的所有輸入實例 $x_i$ 對應的輸出 $y_i$ 的均值，即
$\hat {c_m} = ave(y_i|x_i \in R_m)$
上面是整個樹的輸出形式，關鍵的問題來了，怎麼對輸入空間進行劃分？這裏採用啓發式的算法，選擇第 $j$ 個變量和它取的值 $s$ 作爲切分變量(spliting variable)和切分點(spliting point)，並定義兩個區域
$R_1(j,s)=\{x|x_j≤s\} \quad R_2(j,s)=\{x|x_j>s\}$
然後尋找最優切分變量和最優切分點，即
$m(s)=\min_{j,s}\left[\min_{c_1}\sum_{x_i \in R_j(j,s)}(y_i-c_1)^2+\min_{c_2}\sum_{x_i \in R_j(j,s)}(y_i-c_2)^2\right]$
簡單的理解，就是在要求切分點 $s$ 兩邊的區域的均方差都儘量小的同時，保證兩個區域的最小均方差和是最小的。

對每一對 $(j,s)$ ，均值表示爲
$\hat {c_1} = ave(y_i|x_i \in R_1(j,s))\quad \hat {c_2} = ave(y_i|x_i \in R_2(j,s))$
遍歷所有輸入變量，找到最優的對 $(j,s)$ ，從而將輸入空間切分爲兩個區域，接着對切分的兩個區域重複上述劃分過程，直到滿足停止條件爲止，這樣一個迴歸樹的生成就完成了。

舉個🌰，輸入數據 $D$ 如下表所示。

$x_i$	1	2	3	4	5	6
$y_i$	5.56	5.70	5.91	6.40	6.90	7.95

對上述連續型變量，只有一個切分變量，那麼考慮切分點爲1.5, 2.5, 3.5, 4.5, 5.5。對切分點依次求解 $R_1,R_2,c_1,c_2,m(s)$ ，例如當切分點爲2.5時， $R_1=\{1,2\},R_2=\{3,4,5,6\}$ ，其他的計算如下
$c_1=\frac{1}{N_1}\sum_{x_i \in R_1(j,s)}y_i=\frac{1}{2}(5.56+5.70)=5.63 \\ c_2=\frac{1}{N_2}\sum_{x_i \in R_2(j,s)}y_i=\frac{1}{4}(5.91+6.40+6.90+7.95)=6.79 \\ s_m=\min_{j,s}\left[\min_{c_1}\sum_{x_i \in R_1(j,s)}(y_i-c_1)^2+\min_{c_2}\sum_{x_i \in R_2(j,s)}(y_i-c_2)^2\right]=2.294$
第一次切分時，對象爲全體輸入，計算出來的 $s_m$ 值如下表所示。

切分點	1.5	2.5	3.5	4.5	5.5
$s(m)$	3.23468	2.294	1.31373333	0.956725	1.21752

可以看到，當 $s=4.5$ 時，取得最小的 $s(m)$ 值，此時的迴歸估計值爲全體輸入的均值6.403，遞歸求解左子樹和右子樹的迴歸估計值，最終求解的迴歸方程爲
$f(x)=\begin{cases} 5.723 & x≤3.5 \\ 6.4 & 3.5<x≤4.5 \\ 6.9 & 4.5<x≤5.5 \\ 7.95 & x>5.5 \end{cases}$

這個過程可以使用graphviz模塊顯示出來。

使用本文一開始提到的數據，決策樹迴歸的代碼如下

# 決策樹迴歸
from sklearn import tree
model_decisiontree_regression = tree.DecisionTreeRegress(min_weight_fraction_leaf=0.01)
plot_regression(model_decisiontree_regression, x_data, y_data)

2.3 SVM迴歸

先回顧一下在基本線性可分情況下的SVM模型:
$\operatorname{err}\left(x_{i}, y_{i}\right)=\left\{\begin{array}{ll}{0} & {\left|y_{i}-w \cdot x_{i}-b\right| \leq \varepsilon} \\ {\left|y_{i}-w \cdot x_{i}-b\right|-\varepsilon} & {\left|y_{i}-w \cdot x_{i}-b\right|>\varepsilon}\end{array}\right.$
分類SVM模型中要讓訓練集中的每個樣本儘可能遠離自己類別一側的支持向量，迴歸模型也一樣，沿用的是最大建哥分類器的思想。

對於迴歸模型，優化的目標函數和分類模型保持一致，依然是 $\min_{w,b}\frac{1}{2}\|w\|^{2}$ ，但是約束條件不一樣，迴歸模型的目標是讓訓練集中的每個樣本點 $(x_i,y_i)$ 儘量擬合到一個線性模型 $y_i=wx_i+b$ 上，對於一般的迴歸模型使用均方誤差MSE作爲損失函數的，但是SVM迴歸不是這樣定義的。

如下圖所示，在藍色條帶裏面的點是沒有損失的，但是在外面的點是有損失的，損失大小爲紅色線的長度。

總結下，我們的SVM迴歸模型的損失函數度量爲
$\text{err}\left(x_{i}, y_{i}\right)=\left\{\begin{array}{ll}{0} & {\left|y_{i}-w \cdot x_{i}-b\right| \leq \varepsilon} \\ {\left|y_{i}-w \cdot x_{i}-b\right|-\varepsilon} & {\left|y_{i}-w \cdot x_{i}-b\right|>\varepsilon}\end{array}\right.$
有了損失函數之後，我們就可以定義SVM迴歸的目標函數爲
$\min \frac{1}{2}\|w\|_{2}^{2} \\ \text { s.t }\left|y_{i}-w \cdot x_{i}-b\right| \leq \varepsilon(i=1,2, \ldots,m)$
這個模型的最優解求解過程這裏不再贅述，有興趣的可以看參考[2]或者[3]中的論述。

使用本文一開始提到的數據，SVM迴歸的代碼如下

# SVM迴歸
from sklearn import svm
model_svr = svm.SVR()
plot_regression(model_svr, x_data, y_data)

參考

[1] 李航. 統計學習方法, 清華大學出版社

[2] CSDN-SVM迴歸博客

[3] cnblog-SVM迴歸博客

機器學習-幾種迴歸模型原理和實現

文章目錄

1. 什麼是迴歸？

2. 迴歸模型

2.1 線性迴歸

2.1.1 普通線性迴歸

2.1.2 嶺迴歸

2.2 決策樹迴歸

2.3 SVM迴歸

參考

Python 潮流週刊#52：Python 處理 Excel 的資源

機器學習-PCA降維原理與實現

進程 VS 線程

機器學習-極大似然估計法

帶你重溫聚類方法

機器學習-softmax 迴歸原理與實現

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結