注:參考資料《統計模型入門–網易雲課堂》張文彤
在線LaTex編輯器工具:http://latex.codecogs.com/eqneditor/editor.php
迴歸分析概述:
- 研究一個連續性變量(因變量)的取值隨着其他變量(自變量)的數值變化而變化的趨勢;
- 迴歸方程可以更爲精確地解釋變量間的關係:計算(偏)迴歸係數即可知道自變量改變一個單位時,因變量平均改變的單位數量,這是相關分析無法做到的。
- 迴歸方程可以用來預測和控制,
預測,是指已知某自變量的值,通過迴歸方程,預測因變量的值;
控制,是指在某些情況下,期望因變量達到某些標準或是值,通過迴歸方程,我們可以得知我們需要如何控制自變量纔會達到預期效果;
線性迴歸模型的框架: - 線性迴歸假定:自變量對因變量的影響強度保持不變
其中,:給定自變量的取值時,y的估計值(所估計的平均水平);
:常量,可以被看成時一個基線水平,多數情況下沒有實際意義;
:(偏)迴歸係數,當固定不變(沒影響)時,自變量改變一個單位,y估計值的改變量;在因變量y的變異中,可以由x直接估計的部分;
因變量的預測值可以被分成兩部分:常量+迴歸部分。
殘差=估計值()和實測值()之間的差,刻畫了除了自變量x之外的其他變異;爲了方程可以得到估計,往往假定 服從正態分佈;作爲整體,模型可以對殘差的離散程度進行估計。
線性迴歸模型中的常用指標:- 決定係數(),是
模型整體
價值的衡量指標;相應的相關係數的平方;反映因變量y的全部變異中能夠通過迴歸關係被自變量解釋的比例; - 偏回歸係數,是
某自變量這一部分
價值的衡量指標,反映某一個自變量在數量上對因變量的影響強度; - 標化偏回歸係數:即去除量綱(這麼做,是因爲不同自變量,不同的單位,可能會無法比較),用於自變量間重要性的比較;