機器學習--基礎--線性迴歸原理與機器學習一般性建模思路

線性迴歸

原理

線性迴歸是一個很基礎很簡單的問題。如下所示

特徵1 特徵2 特徵3 標籤值
x10x_1^0 x20x_2^0 x30x_3^0 y0y_0
x11x_1^1 x21x_2^1 x31x_3^1 y1y_1

這是一組特徵值序列以及他們的標籤。
線性迴歸實際上是認爲這些特徵值同標籤存在着線性相關的關係,關係可以描述爲:
hθ(X)=θ0+θ1x1+... h_{\theta}(X)=\theta_0+\theta_1x_1+...
這裏的h(θ)h(\theta)就是yy的預測值;也就是說線性模型是指將這些特徵x1,x2x_1,x_2等等代入到上面的一個線性函數裏面得到對yy的預測,那麼在線性迴歸這個任務裏,剩下的就是如何求θ\theta這些值了。如果預測的y是連續的,這稱之爲線性迴歸,如果y是離散的,稱之爲線性分類。
在線性迴歸中,現在最爲主要的問題是如何求得這樣的一組θ\theta使得上述關係同真實的標籤值

最爲簡單的辦法是構建一個衡量模型效果的函數
L(θ)=i=1n(hθ(x1i,x2i,...)yi)2 L(\theta)=\sum_{i=1}^{n}(h_{\theta}(x_1^i,x_2^i,...)-y_i)^2
這個函數就將我們上面的問題轉化爲數學表達式,即找到一組θ\theta使得在此條件下計算的預測標籤同真實的標籤差距最小,這個函數被稱之爲損失函數。

爲了便於進行推演,上面的函數可以用矩陣的形式進行表達
L=12(XθY)T(XθY) L = \frac{1}{2}(X\theta-Y)^{T}(X\theta -Y)

假設其他條件都不做限制,我們知道求取LminL_{min}的一般性方法是對θ\theta求導,使導數爲0,然後將導數函數變爲方程,最終求出θ\theta,對上面的矩陣表現形式進行求導並另導數爲0,可得
θ=(XTX)1XTY \theta = (X^TX)^{-1}X^TY
一般而言,對於簡單的函數,到這一步就可直接求出θ\theta,實際應用中常常使用的是梯度下降法來求取獲得適宜的θ\theta,這裏的內容可以參考鏈接,不做贅述。

機器學習最一般性的思路

從上面的步驟可以看出,機器學習的一般思路是:

  1. 構建特徵值與標籤之間的關係模型,這種關係模型中有大量的未知數需要求解,即定義模型
  2. 在上述關係模型的基礎上,構建起求解這些未知數的模型,即定義模型的優化問題
  3. 求解優化問題,獲得滿足需求的這些未知數的解,從而代入關係模型,獲得優化後的模型,即完成優化過程。

其他的機器學習方式,包括深度學習方式都是基於上述最一般的3個步驟進行建模進行處理,所不同的是這三個步驟的具體形制不同。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章