1. RSS, RSE, TSS等
RSS(Residual Sum of Squares)
RSS=e12+e22+e32+...+en2=(y1^−β0^−β1^x1)+...+(yn^−β0^−β1^xn)=i=1∑n(yi−yi^)2
RSS定義了,在進行了迴歸之後,模型未能解釋的變量。
RSE(Residual Standard Error)
RSE=n−2RSS=n−21i=1∑n(yi−yi^)2
RSE說明了,即使再好的迴歸模型也存在着RSE置信區間之內的誤差,即模型對於數據的欠擬合程度。
TSS(Total Sum of Squares)
TSS=i=1∑n(yi−y)
其中y=n1yi。TSS定義了y自身的方差,即衡量了Y中y固有的變化程度。
R2
R2=TSSTSS−RSS=1−TSSRSS
- TSS:衡量了Y中y固有的變化程度。
- RSS:進行迴歸之後,模型未能解釋的變量值
- TSS−RSS:固有的變化程度 - 未能解釋的變量值 = 能解釋的變量值
- TSSTSS−RSS:已經解釋的變量值佔所有固有變化的比例
R2的變化區間爲(0,1),與y的尺度無關。所以,理論上R2越大應該越好,即大量的變量可以被迴歸所解釋。但實際場景中,R2的值要看應用。
F−statistic用於估計H0
F=RSS/(n−p−1)(TSS−RSS)/p
其中,n爲樣本個數,p爲多項式迴歸中的迴歸係數的個數
- TSS:y固有的方差,及固有的變量
- RSS:迴歸後,未能解釋的變量
- TSS−RSS:迴歸後,能夠解釋的變量
- pTSS−RSS:迴歸後,每個predictor所佔的解釋比例 (1)
- n−p+1RSS:迴歸後,每個樣本未能被解釋的比例 (2)
- σ=RSE=n−2RSS:每個樣本的未能被解釋的佔比 (3)
若對於上述的 (1),(2),(3) 式
-
(1)=(3),意味着每個predictor能解釋的佔比很低
-
(2)=(3),意味着每個樣本能比解釋的佔比很低
-
可以推出F−statistic=1,即
β1=β2=...=βn=0
說明各個predictor對預測y都是沒有幫助的。
若對於上述的 (1),(2),(3) 式
-
(1)>(3),意味着每個predictor能解釋的佔比很高
-
(2)=(3),意味着每個樣本能比解釋的佔比很低
-
可以推出可以推出F−statistic>1,可以推出
至少有一βi,i∈{1,2,...,p}不爲0
F−statistic,用於檢驗部分predictors是否爲0
F−statistic=RSS/(n−p−1)(RSS0−RSS)/q
- RSS0:省略了q個predictors的模型的RSS
- RSS0−RSS:即這q個predictor能夠解釋的變量
- q(RSS0−RSS):平均每個q能解釋的變量的比例
- n−p−1RSS:平均每個樣本未能被解釋的比例
如果使用個體的t−statistic和相關的p−value來衡量變量和響應之間的關係,很可能會得到錯誤的結論。
2. Variable selection
在一個多元迴歸式中,究竟哪些變量是和y有關係的?將沒有關係的找出來
-
若是p=2,即有兩個predictor,那麼需要設計4個模型
- No variable
- 只包含X1
- 只包含X2
- 包含了X1,X2
然後對每個模型,可用如下指標進行檢驗:R2,BIC,AIC,Cp。但是當p特別打的時候,如p=20,那麼就需要220個子集,這樣做效率過低。故需要其他的手段
-
Forward Selection
先假設一個參數爲空的模型,只有截距β0。此外,有訓練好了的p個variable。一個個往模型中加variable,並保證最低的RSS。滿足某個條件的時候停止
-
Backward Selection
先假設所有的variable都要。然後,選擇p−value最大的刪除。不斷地重複,直到滿足某條件;如設定好p−value的閾值。
-
Mixed Selection
先假設一個參數爲空的模型。然後,不斷地加Variable進去,且保證加進去的使p−value最小,一旦超過了某個閾值,該variable就先放在一旁。最後,p−value分成兩份,一份使得整個模型的p−value都較小,另一份使得p−value都較大。
3. Model Fit
兩個衡量指標:R2,RSE
4. Prediction
-
兩個error
- Random Error ϵ不可控錯誤。即其他不明的錯誤未考慮進來,完美的變量是不可能被找到的,只能被估計。
- Model Bias是可控變量。可以通過不斷地做實驗,或訓練模型來減少它。
-
兩個interval
- Confidence interval。針對大部分城市的銷售量區間,95%的區間內包含了真實的值。
- Prediction interval。針對某個特定城市的銷售量區間,95%的區間包含了真實的值。
- 兩個interval擁有相同的中心,但是prediction interval的範圍比confidence interval的更加廣。
5. 兩個強假設
Predictors and Responses are additive and linear
-
Additive
Predictor xi的改變,那麼y也相應的改變βi的大小,和其他的predictors無關。即xi造成的影響和其他的predictors相互獨立。
-
Linear
Predictorxi每次的改變1−unit對於y來說效果是一致的,無任何疊加的變化。
移除Additive假設,擴展線性迴歸
-
當爲線性迴歸的時候,
Y=β0+β1x1+β2x2+ϵ
此時x1的變化,會使得Y的變化只和β1x1相關,未考慮到x2對於x1的影響,可能也會對Y造成影響。
-
對線性迴歸進行擴展,如下:
Y=β0+β1x1+β2x2+β3x1x2+ϵ=β0+(β1+β3x2)x1+β2x2+ϵ=β0+β1~x1+β2x2+ϵ
此時,x1的變化會有x2的參與,x1和x2的interaction被考慮了進來。舉個例子:流水線個數和員工人數,決定了生產量。現在增加流水線,提升了生產量;但生產量的提升,不僅僅是流水線的功勞,還有員工的功勞,即員工和流水線的相互作用interaction。
-
Hierarchical Principle(層次性原則)
若是一個模型中包含了interaction,那麼這個模型也必須包含主要的影響因子x1, x2,即使x1, x2相關係數的p−value很大。也就是說,當x1, x2的interaction很重要的時候,x1, x2造成的影響也沒多少人感興趣了。但是它們得包含在模型中,否則會違背x1, x2相關這件事。
移除Linear假設,擴展到Non-linear Relationship
mpg=β0+β1horsepower+β2horsepower2+ϵ
上述式子將mpg與horsepower的關係變爲了非線性,可以看出來是一個二次的曲線。但需要注意的是,這仍是一個線性表達式,可以用線性迴歸的方法求解相關係數。因爲改變的只是式子中的predictor而已,並不是相關係數。
6. Potential Problems
Non-linearity of the response-predictor relationships
Correlation of Error Terms
Linear RegressionModel的ϵi,i∈{1,2,...}應該是故不相關的。
- 現有計算regressioncoefficients的方法都是基於ϵi互不相關的假設。即當前數據的ϵ不會影響到下一數據的ϵ。否則當前計算出的standard error將低估了正確的SD,因爲沒考慮到這種相關性,導致錯的離譜。預測的區間和真實的比將會更寬,如95%的置信區間其實並沒有0.95這麼高
- 舉個例子
- 假設將已有的n數據複製了一份,共有2n份數據用於訓練模型
- 雖然標準差是2n個樣本的,但其實真實有效的數據只有n份。兩份數據存在了相關性。
- 訓練得到的coefficient是針對2n份數據的,導致真實的置信區間縮小了2倍。
- 在time series data(時序序列數據)中經常會出現correlation的問題。比如說,**鄰近時間點採集的數據,都會有相關的ϵ。**如果存在相關性,那麼在殘差圖中就會發現追蹤現象,即臨近殘差將會有相近的值。
- Correlation對於Linear Regression很重要。若是數據來自同一個家庭,一樣的喫飯習慣,都會使得數據存在相關性。若是線性迴歸中,各個樣本之間能夠獨立,將會有更大的意義。
Non-constant variance of error terms(誤差項的不恆定方差)
Outliers(離羣點)
-
雖然離羣點對於迴歸線的影響可能不大,但對於RSE,R2指標都有着極大的影響,這導致對模型的分析出現嚴重的錯誤。比如說,confidence interval,p−value的計算都出現問題。
-
可以通過
Studenized residuals=RSSei
來計算,如果該值大於3,則該點爲離羣點
高槓杆點
-
高槓杆點勢必離羣點更危險的點,因爲它容易帶偏回歸線。
-
對於高槓杆點的判斷可通過如下公式
hi=n1+∑i′n(xi′−x)2(xi−x) ∈(n1,1)
若是(xi−x)越大,則hi越大,說明了該點更可能爲高槓杆點。通常hi>nP+1的點都是高槓杆點。
Collinearity(共線性)
-
兩個predictors過於相關了,可以通過VIF指標來檢測
VIF(β^j)=1−RXj∣X−j21
-
共線性使得各個變量之間互相關。而Linear Regression假設各個邊緣之間獨立,否則對預測會造成影響。但在現實生活中,數據間往往存在着相關性,但機器學習側重於預測的準確率。若準確率很高,則不用過於關注。
7. 幾個問題總結
sales和budget之間是否存在關係?
- 通過多元迴歸將sale和TV,Radio,Newspaper聯繫起來
- 測試H0,βi=0,i∈{1,2,3,...}是否成立,使用F−statistic作爲指標,p−value越低,說明存在關係的可能性越大。
Relationship有多強?
- RSE估計了標準誤差
- R2記錄了Response中可以通過Predictor解釋的變量佔比
哪個媒體對sales有貢獻?
- 檢查每個predictor的t−statistic相關的p−value
- p−value越低,說明貢獻越大
每個媒體在sales上的影響有多大?
-
βj^的標準差可用來構建置信區間。若置信區間內不包含0且遠離0,那麼說明response和該predictor佔一定關係。
-
此外,共線性會導致標準差變大。故需要檢測共線性是某predictor置信區間出現0的原因,通過VIF來檢測。
-
若想檢驗單個變量對sale的影響,可以各自做線性迴歸。
預測能力有多強?
預測區間比置信區間更加廣闊,因爲預測區間加入了不可控變量ϵ。
是否爲線性關係?
residual plot可用來檢測非線性
廣告數據存在協同性嗎?
- 標準的線性迴歸模型假設predictors和response之間存在加性關係,即各個prediction互相獨立。
- 每個predictor造成的影響不依賴其他的predictors
線性迴歸與K-NN Regression比較
-
線性迴歸是基於parametric類方法,有很好的優點
- 僅需估計有限個β
- 可以用統計方法進行分析
但也有缺點
- 有F(X)的強假設,若數據和假設無關,造成準確率很低
-
這時候就需要non−parametric的方法了,如KNN Regression,如下
f(x0)^=K1xi∈N0∑yi
- 當K很大時,以MSE爲衡量指標不會比Linear Regression差多少。但是當k很小的時候,K−NN Regerssion就很差了。
- 在現實生活中,當predictors的個數很多的時候,對於KNN Regression就會有維度災難,其MSE很大。故大多是場合還是基於Linear Regression。
本文爲作者原創,轉載需註明出處!