【Machine Learning】迴歸學習與示例

迴歸學習(Regression Learning),又稱爲迴歸分析(Regression Analysis),是一種近似方法,從未知概率分佈的隨機樣本中獲得目標函數。

一、基本原理

變量之間的相互關係可以分爲確定性和非確定性兩大類,前者存在明顯的函數關係,如線性函數。後者的變量之間存在關係但不完全確定,在某種隨機干擾下產生統計關係們無法獲得精確的數學函數關係。對於存在統計關係的變量,通過大量試驗獲取相關統計數據,並構造目標函數並逼近該關係,即迴歸學習。

爲s(s是正整數)維歐氏空間,對於隨機變量,迴歸學習研究的是x的函數值對y的依賴性,即尋找一個函數,使得f(x)在極小化預測平方的期望或L2風險的前提下,能夠較好的逼近y,函數f(x)稱爲迴歸函數。

由於,

上的任意一個可測函數,用v表示x的方向分佈可知:


根據L2風險極小化可知,迴歸函數是最好的預測函數,即


當且僅當


極小化時,函數f爲迴歸函數較好的預測函數。

在實際的應用中,樣本分佈往往未知,迴歸函數通常也未知。但是,樣本可以根據同一分佈採樣,此時迴歸學習轉化爲所謂的迴歸統計問題。


爲XxY上獨立分佈的樣本點集合,迴歸估計的目標是構造迴歸函數的一個估計子,使得L2誤差最小,即


最小化。


二、迴歸類型

2.1 參數迴歸

如果隨機變量間的相關函數類型已知,但是相關參數未知,根據樣本值估計這些參數的過程稱之爲參數迴歸。線性和非線性迴歸都是典型的參數迴歸。如:


2.2 非參數迴歸

在實際應用中,很多隨機變量之間的關係難以用確定的相關函數類型進行描述,在引入大量參數的情況下仍然不能減少估計誤差,這時可以採用非參數迴歸模型。非參數迴歸模型對迴歸函數的形式沒有特別的要求。對(x,y)的分佈沒有嚴格的規定,而是根據數據本身確定模型結構。

2.3 半參數迴歸

在有些情況下,使用使用線性迴歸模型擬合數據的效果較差,如果用非參數迴歸模型又會失去太多信息,於是就出現了參數部分和非參數部分相結合的半參數迴歸模型:


式中,x爲自變量,β爲待估計參數,g(x,β)爲表達式已知的函數,u(t)爲未知函數, ε 爲隨機誤差。    


三、算法優化

3.1 線性迴歸模型


3.2 多項式迴歸模型


3.3 主成分迴歸模型


3.4 自迴歸模型


3.5 核迴歸模型


四、求解迴歸模型的方法

4.1 最小二乘法


4.2 修正的Gauss-Newton法


4.3 有理插值法





未完待續。。。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章