算法之路--線性迴歸(五)

一:線性迴歸模型的優點:

1.建模速度快,不需要很複雜的計算,在數據量大的情況下依然運行速度很快。

2.可以根據係數給出每個變量的理解和解釋。

3.對異常值很敏感。

二:缺點

 1.只能用於擬合線性數據

三:線性迴歸的用處

線性迴歸有很多實際用途。分爲以下兩大類:

  1. 如果目標是預測或者映射,線性迴歸可以用來對觀測數據集的和X的值擬合出一個預測模型。當完成這樣一個模型以後,對於一個新增的X值,在沒有給定與它相配對的y的情況下,可以用這個擬合過的模型預測出一個y值。

  2. 給定一個變量y和一些變量X1,...,Xp,這些變量有可能與y相關,線性迴歸分析可以用來量化y與Xj之間相關性的強度,評估出與y不相關的Xj,並識別出哪些Xj的子集包含了關於y的冗餘信息。

例子:線性迴歸中最常見的就是房價的問題。一直存在很多房屋面積和房價的數據,如下圖所示:

在這種情況下,就可以利用線性迴歸構造出一條直線來近似地描述放假與房屋面積之間的關係,從而就可以根據房屋面積推測出房價。

四:線性迴歸概念

線性迴歸是利用數理統計中迴歸分析,來確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。其表達形式爲y = w'x+e,e爲誤差服從均值爲0的正態分佈。

迴歸分析中,只包括一個自變量和一個因變量,且二者的關係可用一條直線近似表示,這種迴歸分析稱爲一元線性迴歸分析。如果迴歸分析中包括兩個或兩個以上的自變量,且因變量和自變量之間是線性關係,則稱爲多元線性迴歸分析

五:準備知識點

   高斯分佈

   極大似然

   最小二乘

   梯度下降

六:數據歸一化

歸一化的目的就是使得預處理的數據被限定在一定的範圍內(比如[0,1]或者[-1,1]),從而消除奇異樣本數據導致的不良影響。

1)在統計學中,歸一化的具體作用是歸納統一樣本的統計分佈性。歸一化在0~1之間是統計的概率分佈,歸一化在-1~+1之間是統計的座標分佈。

2)奇異樣本數據是指相對於其他輸入樣本特別大或特別小的樣本矢量(即特徵向量),譬如,下面爲具有兩個特徵的樣本數據x1、x2、x3、x4、x5、x6(特徵向量—>列向量),其中x6這個樣本的兩個特徵相對其他樣本而言相差比較大,因此,x6認爲是奇異樣本數據。

奇異樣本數據的存在會引起訓練時間增大,同時也可能導致無法收斂,因此,當存在奇異樣本數據時,在進行訓練之前需要對預處理數據進行歸一化;反之,不存在奇異樣本數據時,則可以不進行歸一化。
詳情請看資料:https://blog.csdn.net/zenghaitao0128/article/details/78361038

數據歸一化的方法:

數據歸一化的方法主要有兩種:最值歸一化和均值方差歸一化。

 

最值歸一化的計算公式如下:

 

最值歸一化的特點是,可以將所有數據都映射到0-1之間,它適用於數據分佈有明顯邊界的情況,容易受到異常值(outlier)的影響,異常值會造成數據的整體偏斜。

 

均值方差歸一化的計算公式如下:

均值方差歸一化的特點是,可以將數據歸一化到均值爲0方差爲1的分佈中,不容易受到異常值(outlier)影響。

詳情請看:https://www.cnblogs.com/xuezou/p/9332763.html

線性迴歸分析的步驟如下:

(1)根據預測目標,確定自變量和因變量

圍繞業務問題,明晰預測目標,從經驗、常識、以往歷史數據研究等角度,初步確定自變量和因變量。

(2)繪製散點圖,確定迴歸模型類型

通過繪製散點圖的方式,從圖形化的角度初步判斷自變量和因變量之間是否具有線性相關關係,同時進行相關分析,根據相關係數判斷自變量與因變量之間的相關程度和方向,從而確定迴歸模型的類型。

更多資料:https://zhuanlan.zhihu.com/p/40141010

(3)估計模型參數,建立迴歸模型

採用最小二乘法進行模型參數的估計,建立迴歸模型。

(4)對迴歸模型進行檢驗

迴歸模型可能不是一次即可達到預期的,通過對整個模型及各個參數的統計顯著性檢驗,逐步優化和最終確立迴歸模型。

(5)利用迴歸模型進行預測

模型通過檢驗後,應用到新的數據中,進行因變量目標值的預測。



 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章