線性迴歸-最小二乘法

原創

2019-02-27 13:14

轉自博客https://www.cnblogs.com/softlin/p/5815531.html。若侵權，告知即刪

相信學過數理統計的都學過線性迴歸（linear regression），本篇文章詳細將講解單變量線性迴歸並寫出使用最小二乘法（least squares method）來求線性迴歸損失函數最優解的完整過程，首先推導出最小二乘法，後用最小二乘法對一個簡單數據集進行線性迴歸擬合；

線性迴歸

　　線性迴歸假設數據集中特徵與結果存在着線性關係；

　　等式：y = mx + c

　　y爲結果，x爲特徵，m爲係數，c爲誤差在數學中m爲梯度c爲截距

　　這個等式爲我們假設的，我們需要找到m、c使得mx+c得到的結果與真實的y誤差最小，這裏使用平方差來衡量估計值與真實值得誤差（如果只用差值就可能會存在負數）；用於計算真實值與預測值的誤差的函數稱爲：平方損失函數（squard loss function）；這裏用L表示損失函數，所以有：

　　整個數據集上的平均損失爲：

　　我們要求得最匹配的m與c使得L最小；
數學表達式可以表示爲：

　　最小二乘法用於求目標函數的最優值，它通過最小化誤差的平方和尋找匹配項所以又稱爲：最小平方法；這裏將用最小二乘法用於求得線性迴歸的最優解；

最小二乘法

　　爲了方便講清楚最小二乘法推導過程這裏使用，數據集有1…N個數據組成，每個數據由、構成，x表示特徵，y爲結果；這裏將線性迴歸模型定義爲：

平均損失函數定義有：

　　要求得L的最小，其關於c與m的偏導數定爲0，所以求偏導數，得出後讓導數等於0，並對c與m求解便能得到最小的L此時的c與m便是最匹配該模型的；

關於c偏導數：

因爲求得是關於c的偏導數，因此把L的等式中不包含c的項去掉得：

整理式子把不包含下標n的往累加和外移得到：

對c求偏導數得：

關於m的偏導數：

求關於m的偏導數，因此把L等式中不包含項去掉得：

　　整理式子把不包含下標n的往累加和外移得到：

對m求偏導數得：

令關於c的偏導數等於0，求解：

從上求解得到的值可以看出，上面式子中存在兩個平均值，因此該等式也可以改寫成：

令關於m的偏導數等於0，求解：
　　關於m的偏導數依賴於c，又因爲已經求得了關於c偏導數的解，因此把求關於c偏導數的解代數關於m的偏導數式子得：

合併含有m的項化簡：

求解：

爲了簡化式子，再定義出：

示例：

這裏使用上面得到的最小二乘法公式對以下數據集進行線性擬合：

n	x	y	xy	x^2
1	2	4	8	4
2	6	8	48	36
3	9	12	108	81
4	13	21	273	169
平均值	7.5	11.25	109.25	72.5

數據點分佈情況：

根據上訴最小二乘法公式計算出當前數據集最優：m與c

c = 11.25 - 1.5307 * 7.5 = -0.23

最後得出當前線性函數爲：

y = 1.5307x - 0.23

計算出每個節點的預測值：

y1 = 1.5307 * 2 - 0.23 = 2.83
y2 = 1.5307 * 6 - 0.23 = 8.9542
y3 = 1.5307 * 9 - 0.23 = 13.5463
y4 = 1.5307 * 13- 0.23 = 19.6691

擬合結果：

參考資料：
https://zh.wikipedia.org/zh/%E6%9C%80%E5%B0%8F%E4%BA%8C%E4%B9%98%E6%B3%95
a first course in machine learning

文章首發地址：Solinx
http://www.solinx.co/archives/648

分類: MachineLearning

標籤: 最小二乘法, 線性迴歸, 機器學習

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

最小二乘法、最大似然估計和卡爾曼濾波

一、最小二乘法和最大似然估計最小二乘法可以從Cost/Loss function角度去想，這是統計（機器）學習裏面一個重要概念，一般建立模型就是讓loss function最小，而最小二乘法可以認爲是 loss function = （

2020-06-23 11:56:07

類別不均衡問題

問題背景機器學習建模分類問題裏，各個類別樣本量差異較大時，就會出現類別不均衡問題。e.g.如果有99999個無症狀病例，1個有症狀病例，即使訓練的學習器將所有樣本識別成無症狀病例，準確率也高達99.9%；但是這樣的學習器沒有任何

2020-06-21 21:23:46

機器學習算法相關list

感知機perceptron k近鄰法k-nearest neighbor 樸素貝葉斯法naive Bayes 決策樹decision tree 決策樹缺失值處理方法邏輯斯諦迴歸與最大熵模型logistic regression/

2020-06-21 21:23:46

深度學習算法相關list

前饋神經網絡，BP算法 NN/BP 卷積神經網絡(Convolutional Neural Network, CNN) 循環神經網絡(Recurrent Neural Network, RNN)與LSTM RNN/LSTM 深度前

2020-06-21 21:23:46

相對熵 KL散度（KullbackLeibler divergence）

這個屬於香農信息論中的東西，在《PRML》書中1.6 信息論小節中有具體說明。真正碰到應用還是在洛桑聯邦理工的POM文章中（概率佔用圖）。作者使用自己產生的估計Q來去逼近未知分佈P，其中P是一個後驗概率分佈。這篇博文旨在明確KL散度的定義

超级无敌小小顺利

2020-06-16 04:05:31

洛桑聯邦理工 TPAMI-2008 MTMC 概率佔用圖POM建模過程推導筆記

一切都要從2019年9月的那個秋天講起，林野哥向我推薦了這篇洛桑聯邦理工的2008年TPAMI論文，於是一個半月的時間都花在了這上面。Multi-Camera People Tracking with a Probabilistic O

超级无敌小小顺利

2020-06-16 04:05:31

《最優化理論與算法》最優化條件部分學習感悟

最優化學到了最優化條件部分，由於自己的數學功底實在是太差，啃得很慢。今天下午終於對“約束極值問題的最優性條件”部分有了相對宏觀的視角，所以記錄下來以備後用。【必要條件】：如果已經知道了是最優解，那麼它一定滿足的條件。最優化中通常都

超级无敌小小顺利

2020-06-16 04:05:31

Kalman Filter原理簡介及C++實現

本博文內容參考了北卡羅來納大學教堂山分校的文章 An Introduction to the Kalman Filter。目錄一、Kalman Filter簡介二、估計與觀測過程三、KF的計算起源（Computational O

超级无敌小小顺利

2020-06-16 04:05:31

手動實現讀寫鎖(線程級)

讀寫鎖是共享獨佔鎖。讀鎖是共享鎖：讀的同時不能寫，但同時可以多個進程一起讀。寫鎖是獨佔鎖：同時只能有一個進程進行寫。利用庫函數寫模式： pthread_rwlock_wrlock(&rwlock); //加寫鎖寫

2020-06-06 13:53:15

移動最小二乘原理

钢铁侠是怎么练成的

2020-05-22 20:56:46

PFH和FPFH的算法原理

钢铁侠是怎么练成的

2020-05-22 20:56:46

密碼學硬核筆記——特殊離散對數問題

丶坚持不懈

2020-05-15 14:58:23

軌跡規劃 - 梯形速度分佈

2020-05-07 14:14:32

助你穩過高校離散結構 --（系列一）

2020-05-06 06:48:09

粒子濾波器的Matlab實現

2020-05-04 09:29:35

24小時熱門文章

最新文章

最新評論文章