【Machine Learning】迴歸學習與示例

迴歸學習（Regression Learning），又稱爲迴歸分析（Regression Analysis），是一種近似方法，從未知概率分佈的隨機樣本中獲得目標函數。

一、基本原理

變量之間的相互關係可以分爲確定性和非確定性兩大類，前者存在明顯的函數關係，如線性函數。後者的變量之間存在關係但不完全確定，在某種隨機干擾下產生統計關係們無法獲得精確的數學函數關係。對於存在統計關係的變量，通過大量試驗獲取相關統計數據，並構造目標函數並逼近該關係，即迴歸學習。

令爲s（s是正整數）維歐氏空間，對於隨機變量，迴歸學習研究的是x的函數值對y的依賴性，即尋找一個函數，使得f(x)在極小化預測平方的期望或L2風險的前提下，能夠較好的逼近y，函數f(x)稱爲迴歸函數。

由於，

令爲上的任意一個可測函數，用v表示x的方向分佈可知：

根據L2風險極小化可知，迴歸函數是最好的預測函數，即

當且僅當

極小化時，函數f爲迴歸函數較好的預測函數。

在實際的應用中，樣本分佈往往未知，迴歸函數通常也未知。但是，樣本可以根據同一分佈採樣，此時迴歸學習轉化爲所謂的迴歸統計問題。

令

爲XxY上獨立分佈的樣本點集合，迴歸估計的目標是構造迴歸函數的一個估計子，使得L2誤差最小，即

最小化。

二、迴歸類型

2.1 參數迴歸

如果隨機變量間的相關函數類型已知，但是相關參數未知，根據樣本值估計這些參數的過程稱之爲參數迴歸。線性和非線性迴歸都是典型的參數迴歸。如：

2.2 非參數迴歸

在實際應用中，很多隨機變量之間的關係難以用確定的相關函數類型進行描述，在引入大量參數的情況下仍然不能減少估計誤差，這時可以採用非參數迴歸模型。非參數迴歸模型對迴歸函數的形式沒有特別的要求。對（x,y）的分佈沒有嚴格的規定，而是根據數據本身確定模型結構。

2.3 半參數迴歸

在有些情況下，使用使用線性迴歸模型擬合數據的效果較差，如果用非參數迴歸模型又會失去太多信息，於是就出現了參數部分和非參數部分相結合的半參數迴歸模型：

式中，x爲自變量，β爲待估計參數，g（x,β）爲表達式已知的函數，u（t）爲未知函數， ε 爲隨機誤差。

三、算法優化

3.1 線性迴歸模型

3.2 多項式迴歸模型

3.3 主成分迴歸模型

3.4 自迴歸模型

3.5 核迴歸模型

四、求解迴歸模型的方法

4.1 最小二乘法

4.2 修正的Gauss-Newton法

4.3 有理插值法

未完待續。。。