機器學習算法總結——linear regression

單元線性迴歸

定義
  • 假設目標值與特徵之間線性相關: y^=wx+b\widehat{y}=wx+b
  • 其中y^\widehat{y}爲預期值
損失函數
  • 假設有n對數據,則損失函數:L=1n1n(yi^y)2L=\frac{1}{n}\sum_{1}^{n}(\widehat{y_{i}}-y)^{2},即MSE
求解最小化L時,w與b的值
方法一:最小二乘參數估計
  • Lw=2n(w1nxi2+1nxi(byi))\frac{\partial L}{\partial w}=\frac{2}{n}(w\sum_{1}^{n}x_{i}^{2}+\sum_{1}^{n}x_{i}(b-y_{i}))
  • Lb=2n(1n(wxi+byi))\frac{\partial L}{\partial b}=\frac{2}{n}(\sum_{1}^{n}(wx_{i}+b-y_{i}))
梯度下降
  • 梯度下降核心內容是對自變量進行不斷的更新(針對w和b求偏導),使得目標函數不斷逼近最小值的過程
  • wαLwww-\alpha \frac{\partial L}{\partial w}\rightarrow w
  • bαLbbb-\alpha \frac{\partial L}{\partial b}\rightarrow b
  • 其中α\alpha爲learning rate。若α\alpha太小,則收斂很慢;若太大,可能導致不能收斂
  • 注意:此方法可能收斂到局部最小化
  • w與b要同時更新。不能:先更新w,再求偏導b,最後更新b

多元線性迴歸

定義

假設目標值與特徵之間線性相關: y^=θ3x3+θ2x2+θ1x1+θ0\widehat{y}=\theta_{3} x_{3}+\theta_{2} x_{2}+\theta_{1} x_{1}+\theta_{0} = ΘTX\Theta ^{T}X

梯度下降,同上
特徵規格化
  • 在使用梯度下降時,爲了時收斂更快,可以轉換特徵在相似的規模上,比如,0 - 1,-3 - +3。(x-avg)/(max - min)
最後解得特徵爲:Θ=(XTX)1XTy\Theta =(X^{T}X)^{-1}X^{T}y, y爲已知值
若已知向量不可逆,可能是有冗餘的特徵,也可能是特徵數量太多了
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章