迴歸學習(Regression Learning),又稱爲迴歸分析(Regression Analysis),是一種近似方法,從未知概率分佈的隨機樣本中獲得目標函數。
一、基本原理
變量之間的相互關係可以分爲確定性和非確定性兩大類,前者存在明顯的函數關係,如線性函數。後者的變量之間存在關係但不完全確定,在某種隨機干擾下產生統計關係們無法獲得精確的數學函數關係。對於存在統計關係的變量,通過大量試驗獲取相關統計數據,並構造目標函數並逼近該關係,即迴歸學習。
令爲s(s是正整數)維歐氏空間,對於隨機變量,迴歸學習研究的是x的函數值對y的依賴性,即尋找一個函數,使得f(x)在極小化預測平方的期望或L2風險的前提下,能夠較好的逼近y,函數f(x)稱爲迴歸函數。
由於,
令爲上的任意一個可測函數,用v表示x的方向分佈可知:
根據L2風險極小化可知,迴歸函數是最好的預測函數,即
當且僅當
極小化時,函數f爲迴歸函數較好的預測函數。
在實際的應用中,樣本分佈往往未知,迴歸函數通常也未知。但是,樣本可以根據同一分佈採樣,此時迴歸學習轉化爲所謂的迴歸統計問題。
令
爲XxY上獨立分佈的樣本點集合,迴歸估計的目標是構造迴歸函數的一個估計子,使得L2誤差最小,即
最小化。
二、迴歸類型
2.1 參數迴歸
如果隨機變量間的相關函數類型已知,但是相關參數未知,根據樣本值估計這些參數的過程稱之爲參數迴歸。線性和非線性迴歸都是典型的參數迴歸。如:
2.2 非參數迴歸
在實際應用中,很多隨機變量之間的關係難以用確定的相關函數類型進行描述,在引入大量參數的情況下仍然不能減少估計誤差,這時可以採用非參數迴歸模型。非參數迴歸模型對迴歸函數的形式沒有特別的要求。對(x,y)的分佈沒有嚴格的規定,而是根據數據本身確定模型結構。
2.3 半參數迴歸
在有些情況下,使用使用線性迴歸模型擬合數據的效果較差,如果用非參數迴歸模型又會失去太多信息,於是就出現了參數部分和非參數部分相結合的半參數迴歸模型:
式中,x爲自變量,β爲待估計參數,g(x,β)爲表達式已知的函數,u(t)爲未知函數, ε 爲隨機誤差。
三、算法優化
3.1 線性迴歸模型
3.2 多項式迴歸模型
3.3 主成分迴歸模型
3.4 自迴歸模型
3.5 核迴歸模型
四、求解迴歸模型的方法
4.1 最小二乘法
4.2 修正的Gauss-Newton法
4.3 有理插值法
未完待續。。。