線性迴歸(內有最小二乘法)->NODE

ROOT傳送門

關鍵字:最小二乘法,多重共線性現象

一、線性迴歸

1.1 定義 

    所謂迴歸,就是確定自變量和因變量之間的對應關係,線性迴歸對於給定的X和Y,把焦點放在給定的x對應的y的概率分佈,而不是x和y的聯合概率分佈。所以線性迴歸關注的是y。

一個比較特殊的線性迴歸模型:邏輯模型(Logistic Regression)這是一個用於分類的線性迴歸模型

1.2、優點

      線性迴歸模型比非線性迴歸模型更容易擬合,並且產生的估計的統計特徵也非常穩定。所以線性迴歸應該優先考慮。

1.3 用途

3.1、預測

3.2、相關性分析

      給出一個y和一些變量X1,X2,…,XP,這些變量和y可能不相關,也可能相關,可以用線性迴歸模型量化y與Xi的相關強度。

(突然間想起信息熵,那個也與相關強度有關)

二、一元線性迴歸

2.1 模型

形如,x,Y都是可觀察到的值,但是代表不確定性因素,爲隨機變量。這裏需要對未知的估計。常用的估計方法:最小二乘法。

2.2 最小二乘法-用於估計參數

 

4.線性迴歸與最小二乘法

      線性迴歸經常用最小二乘法擬合,二者很逼近,但是不可以畫等號。

5.最小平方誤差

      要求誤差的平方和最小,作爲理想的線性方程的準則。

下面是線性迴歸裏的第一個應用:預測

1線性迴歸模型

    最簡單的模型,就是模型是參數的線性組合。較爲複雜的模型就是使用輸入變量x的基函數f(x)的線性組合來構造模型。注意這裏的簡單的模型的基函數是輸入變量x的各個分量,而較爲複雜的模型的基函數是輸入變量x的各個分量的組合,不一定是線性組合,可能選擇其中的部分分量組成f(x),也可能只選一個。

較爲複雜的模型可以看成參數的線性組合,可以看成各個分量的非線性組合。

2.與GPR

    就是預測條件分佈p(t|x),該分佈可以反映對於一個t,基於這個條件概率分佈對輸入x估計其對應的t的過程,就是最小化損失函數(loss function)的期望的過程。還是一個最小化誤差的平方和的過程,有沒有很像最初的說說高斯過程迴歸?但是那個高斯過程迴歸沒有考慮最小化誤差的平方,只有正則化,而且是假設他們服從多變量高斯分佈的。突然間想起貝葉斯線性迴歸預測p(seta|x)的,它是估計參數的。

3.最小二乘法

    最小二乘法還可以擬合非線性模型,最小二乘法就是最小化誤差的平方和來尋找最優的函數。最小二乘法的matlab實現:ployfit(x,y)爲線性擬合,ployfit(x,y,n)爲n次多項式擬合,他們本質上都是通過最小化誤差的平方和得到最理想的函數。

    目的問題或者損失函數定義爲:

    

    可以與數值線性代數的最小二乘法聯繫起來:

    數值線性代數裏,求解Ax=b,如果這裏的A的行大於列,採用普通最小二乘法,使得殘量最小,如果殘量用二範數表示,即誤差的平方和最小,化簡後就是一個超定方程組。要求解x,即,最終結果爲,該推導方法就是基於最小二乘法的思想的。

    但是線性迴歸我們要求的不是X而是係數。即,這裏的是基函數,式子展開如下:

也可以上述的方法求解,此時就是,問題在於如果中有線性相關或者近線性相關的類,那麼就會變成一個奇異(病態)矩陣,導致最小二乘法對觀測數據非常敏感,使得最後的線性模型產生極大誤差,在這個現象叫做“多重共線性”現象,使得求出來的讓y對x的噪聲非常敏感。這個問題怎麼解決呢?參見《Ridge Rggression》

4.這是較爲複雜的線性迴歸模型

      線性迴歸模型是一組輸入變量x的非線性基函數的線性組合

    

    關於基函數,由於原始數據不能直接應用到機器學習算法裏去。所以必須選擇原始數據的合適的特徵,這些特徵就是

 

5.基函數 的選擇

 

多項式曲線擬合

 

高斯基函數

6.迭代方法

6.1 梯度下降法

      運用所有數據,對損失函數求導,迭代

6.2 隨機梯度下降法

 

    不像梯度下降法一樣,每次使用全部數據,而是一個個的把數據加進來

參考本書198頁,後面的還沒有看

參考:https://blog.csdn.net/daunxx/article/details/51556677

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章