統計學學習-Day2

多變項分析：由面到體

一果多因：多元迴歸分析

一果多因
淨（偏）迴歸係數
1、從下表可見受教育程度對於工資的影響比上一次做一因一果迴歸分析的時候第。原因在於原來做的一因一果線性迴歸分析出來的結果是受教育水平影響工資的毛重。而這裏進行了多因素分析，其中受教育程度還會影響是不是當經理，因此這裏顯示的是淨（偏）迴歸係數。

其中要看那個貢獻比較大，可以通過看Beta來判定。由上圖可見，是否爲經理的貢獻爲0.635最大，也就是說是否爲經理沒變化一個單位，會變0.635個標準差。（注：這裏經理變量不再是0，1，而是變成了0.1，0.2…）

上圖中，設C爲工資變項，A爲受教育水平變項，B爲是否爲經理變項。從A與C的交集可以看出受教育水平可以解釋一部分的工資，同樣的道理受教育水平可以也可以解釋是否爲經理的一部分變量。F那快區域是三個變項的交集，在計算淨迴歸係數時要去掉。

共線性例子（共線性問題就是同語反覆）：由上圖，比如我把同一組因素當中修改一個值，然後將這兩組幾乎同樣的因素一起做線性迴歸分析，會發現原來受教育程度每變一個單位，會引起工資變化3000多，現在卻可以變20000多，且不顯著。原因是，放進去分析的兩個變量是共線的。也就是說他們之間的交集非常的大，如果把他們的交集去掉看淨的影響那就非常小了。
2、排除似是而非的因素：統計控制（讓條件相同的兩個人比）
比如說要控制受教育程度，那麼就利用受教育程度相同的人來比，看白人和黑人是不是有差異。下圖沒有控制的時候，是否爲少數民主工資相差非常大，且顯著相關。但是不能確定這個結果是否爲真。因此要控制變量，加入受教育水平和是否爲經理之後可以看到種族差異就不是顯著了（犯I類錯誤的風險爲40%以上），並且B值明顯減少。
多元迴歸係數是合力
判定係數告訴告訴我們合力的威力

因子分析與量表構建

不能直言相詢只能旁敲側擊
因子分析是利用迴歸分析提高測量精度
旋轉因子與構建量表
旋轉因子的原理：把每一個因子解釋的方差最大化，檢驗量表的可靠性（Cronbach’s Alpha一般標準爲0.7）。
比方說：TF-Boys同臺表演，下面坐着非常的多的觀衆，這個時候是很難看出來哪些觀衆是衝着王俊k，哪些是衝着易烊qx,哪些是衝着王y。這個時候旋轉因子就發揮作用，把他們三個人分成三個舞臺，那麼喜歡王俊k的觀衆就會跑到他的舞臺前，其他同理。還有一些觀衆就會在三角地帶，因爲他們三個都喜歡。
按照上面的理解，分析下表。下面的那項研究是分析公民對10個方面問題的感知。可以看到第一個未旋轉的因子矩陣中，顯示出了三個因子。也就是說這十個項與三個因子有關，其中10個項與第一個因子都有關，2個項與第二個因子有關，1個項與第三個因子有關。
然後再看旋轉因子矩陣就可看出來了。被調查者認爲國防、教育等因素與第一個因子有關，犯罪、酗酒、出版與第二個因子有關、教育、環保等因素與第三個因子有關。從中可以看出，第一個因子應該是關於ZYZF的，第二個因子應該是關於SH的，第三個因子是關於DFZF的。

卡方檢驗

因爲一些不服從正態分佈的變量要檢驗不能用線性迴歸。所有通過計算卡方值。
H1 有關係
H0 沒有關係
檢驗卡方值及要看自由度又要看卡方值。
自由度=（表的行數-1）（表的列數-1）：
卡方值 = 求和（實際-期望）**2 /期望
在給定自由度的前提下，卡方值越大，出現的概率越小。比如說計算出來的期望值是3.4，那麼可以看到在自由度爲1的前提下，出現的概率爲5%-10%之間，這是拋棄零假設犯I類風險的錯誤就比較大了。如果卡方值是10，那麼在自由度爲1的情況下出現的概率非常小，那麼如果可以承擔這個犯一類錯誤的風險，那麼就可以拋棄零假設，認爲兩個變量之間存在着某種關係。

建立交叉表：行是因變量，列是自變量

上圖建立起了一個22的交叉表。
自由度=（2-1）（2-1）=1
期望值（不是經理，不是少數民族)=390370/474
接着看下圖這個卡方值=17.592，自由度爲一，通過看卡方分佈表說明犯I類風險的概率很低。可以決定是否拋棄零假設。再進行對數迴歸。

對0-1取發生比，然後再取對數

迴歸的結果如下：寫論文的時候還是要還原回發生比。解釋的時候就要解釋S曲線，而不是直線。