Ref: https://my.oschina.net/keyven/blog/526010
前言
普通最小二乘法(ordinary least squares, OLS)是線性迴歸預測問題中一個很重要的概念,在 Introductory Econometrics A Modern Approach (Fourth Edition) 第2章 簡單迴歸模型 中,花了很詳細的篇幅對此作出介紹。應聘數據挖掘崗位,就有考到對普通最小二乘法的推導證明。最小二乘法十分有用,例如可以用來做推薦系統、資金流動預測等。
推導證明
(1) 公式推導
(2) 求和性質
求和性質,具體可以參考Introductory Econometrics A Modern Approach (Fourth Edition) 一書(計量經濟學導論,第4版,傑弗裏·M·伍德里奇 著)的附錄A。
(3) 一般形式
有了上述推導證明,普通最小二乘法一般形式可以寫成(字母蓋小帽表示估計值,具體參考應用概率統計):
重要概念
接下來簡單地介紹幾個重要概念,並在下一章節給出最小二乘法的無偏估計。
記第i 次觀測殘差(residual)是yi 的實際值與其擬合值之差:
其中SST=SSE+SSR。
擬合優度,有時又稱“判定係數”,迴歸的R2(R-squared),用來判斷直線擬合效果:
當R2 = 1時稱爲完美擬合,當R2 = 1時稱爲糟糕擬合,最理想的觀測是,第i 次情況 殘差u=0。
事實上,R2不因y 或x 的單位變化而變化。
零條件均值,指給定解釋變量的任何值,誤差的期望值爲零。換言之,即 E(u|x)=0。
無偏估計
我們追求零條件均值,得到OLS 估計量的無偏估計:
其中,
現在我們可以看到,β1 的估計量等於總體斜率β1 加上誤差 { u1, u2, ..., un }的一個線性組合。
“線性”含義
線性迴歸問題中,“線性”的含義是指被估計參數β1 和β2 是線性相關的,而不關心解釋變量與被解釋變量以何種形式出現,例如y = kx + b,log(y) = kx + b,log(y) = klog(x) + b,etc. 下面列舉一些常用的曲線方程:
1、雙曲線 1/y = a + b/x
令y'=1/y,x'=1/x,則有y'=a+bx'
2、冪函數曲線y=axb
令y'=lny,x'=lnx,a'=lna,則有y'=a' +bx'
3、指數函數曲線y=aebx
令y'=lny,x'=x,a'=a,則有y'=a'+b x'
4、負指數函數曲線y=aeb/x(同上)
5、對數函數y=a+blnx
令y'=y,x'=lnx,則有y'=a+bx'
6、S型(Logistic,邏輯斯蒂迴歸)曲線y=K/(1+Ae-λx)
令y'=ln((K-y)/y),a=lnA,則有y'=a-λx
多重線性迴歸
多重回歸研究的是變量y 與可控變量x1,x2,...,xk 之間的線性關係,假設
根據線性代數,則有
得到
與普通最小二乘法推導證明相似,可以得到β 的最小二乘估計
此處不作證明,具體可參考《應用概率統計 張國權 著》第九章 迴歸分析。