量化投資學習筆記18——迴歸分析:變量的選擇、多重共線性及迴歸分析的改進

如果模型包含了所有影響因素,稱爲全模型。如果只包含部分影響因素,稱爲選模型。
影響:①未選入的參數不全爲0時,選模型的迴歸參數爲有偏估計。②選模型的預測結果是有偏預測。③選模型的參數估計有較小的方差。④選模型的預測殘差有較小的方差。⑤選模型預測的均方誤差比全模型小。
自變量選擇的準則:
①殘差平方和SSE越小,決定係數R²越大越好。並非如此。
②自由度調整複決定係數達到最大。
③赤池信息量(Akaike Information Criterion, AIC)達到最小:基於最大似然估計原理。
④統計量Cp達到最小。
下面用課程裏的一個數據集進行實操,有三個可選自變量,分別計算各種自變量選擇組合的R²,adjR²,AIC,Cp。
其中前三個指標都能直接用statsmodels獲得,而Cp沒找到如何獲得,就算前三個吧。

最後幾個都很好。
自變量選擇的方法
前進法:變量由少到多,逐個加入,直到沒有可引入的變量。
步驟:
①對所有m個自變量分別進行一元線性迴歸。②對迴歸方程計算F統計量,找出最大的一個。
③若其大於預先指定的檢驗水平,該變量入選。
④將該變量與剩餘的m-1個變量組合,分別進行建模,按照上面的過程選出F值最大的一個,如果大於檢驗水平,入選。
⑤重複上述步驟,直到沒有滿足條件的變量爲止。

看實測的結果,除了第三個,即x3的方程,其餘都遠小於0.05。
前三個是單變量一元線性迴歸的,x1的方程的F值最大,入選。
然後看x1,x2和x1,x3的迴歸方程的F值。分別是上面的3,4行。x3入選。
最後看x2入選以後得F值,p仍小於0.05,也入選。因此三個變量均入選。
後退法:變量由多到少,逐個減少,直至沒有可以減少的變量。
方法,先對所有變量進行迴歸,然後看每個迴歸係數的F值,找到最小的,若小於檢驗閾值,將該變量去除。直至無法再去除。
兩種方法都有各自的優缺點。
逐步迴歸法:有進有出。一旦入選變量發生變化就對所有變量進行F檢驗。
多重共線性:模型的解釋變量之間存在精確或高度相關關係使模型估計失真或難以估計準確。
原因:多個自變量存在相同的趨勢。②引入了滯後的變量。③樣本資料的限制。
影響:參數估計失效;顯著性檢驗失效;模型無應用價值。
診斷:
直觀判斷:增加或剔除一個自變量,觀察模型,如果係數估計值變化很大,說明存在嚴重的多重共線性。重要的自變量顯著性檢驗沒有通過。一些自變量係數正負號與定性分析結果相反。自變量相關係數矩陣中相關係數較大。重要變量的迴歸係數標準誤差較大。
方差擴大因子法。
特徵根判定法。
消除方法:
①刪除不重要的解釋變量
②增大樣本量
③迴歸係數有偏估計
改進的迴歸方法:嶺迴歸(脊迴歸)、LASSO迴歸
迴歸分析就完了,接下來找個實際的數據集來實操一把吧。
本文代碼: https://github.com/zwdnet/MyQuant/tree/master/17

我發文章的四個地方,歡迎大家在朋友圈等地方分享,歡迎點“在看”。
我的個人博客地址:https://zwdnet.github.io
我的知乎文章地址: https://www.zhihu.com/people/zhao-you-min/posts
我的博客園博客地址: https://www.cnblogs.com/zwdnet/
我的微信個人訂閱號:趙瑜敏的口腔醫學學習園地

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章