Machine Learning筆記(五)

多項式迴歸

概念:與選擇特徵的想法密切相關的一個概念被稱爲多項式迴歸。

在課程中還是用的房價預測的例子,假設函數中本來有兩個特徵:x1:房屋的寬度,x2:房屋的深度(即長寬),這時候創造一個新的特徵房屋面積x:寬度與深度的乘積,然後對這個新的特徵x選擇合適的模型擬合。

二次模型size很大時price將會下降不太符合現實,選用三次模型,這裏要注意的是這樣做的話,特徵的歸一化就很重要,使它們的值的範圍變得具有可比性。但同樣的用平方根函數依然ok(h\theta (x)=\theta 0+\theta 1size+\theta 2\sqrt{size}),模型的選擇是活的。

如果自變量只有一個時,稱爲一元多項式迴歸;如果自變量有多個時,稱爲多元多項式迴歸。多項式迴歸的最大優點就是可以通過增加x的高次項對實測點進行逼近,直至滿意爲止。代碼實現見https://blog.csdn.net/After__today/article/details/81603980

 

標準方程法

一種求θ的解析解法,與之前使用迭代算法相比,可以一次性求解θ的最優值。

θ在這裏指向量,m是特徵向量的維度,n是特徵向量的個數,所以代價函數中θ下標應該是從0到n(有錯請指正),對每個參數θ求代價函數J的偏導數,然後把它們全部置0,求出θ0……θn的值,就能得到能夠最小化函數J的θ值

如下例子:維度爲4,特徵數爲4(這裏矩陣X前面補全1向量x0是因爲在假設函數中有個常數項θ0)

這種情況下\theta =(X^{T}*X)^{-1}*X^{T}*y時,代價函數J最小,這個是怎麼推導的呢?

首先y=\theta x,可以根據這個求出\theta,但是我們知道這是x是矩陣,而只有方陣纔可以求逆,所以現在式子的兩邊同時乘個X^{T}構成方陣,即y*X^{T}=\theta x*X^{T},然後就得到了\theta =(X^{T}*X)^{-1}*X^{T}*y這個公式。

梯度下降法和標準方程法的比較:

在線性迴歸模型中,特徵向量的數目不大的情況下,標準方程法是一個很好的計算θ的替代方法,特徵向量的數量達到一萬左右,求轉置和逆運算的計算量很大,速度會很慢,開始考慮使用梯度下降法或者後面講到的其他算法。

ps:迴歸問題貌似在這一節結束了,後面開始講分類問題了

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章