SPSS:基本統計分析(二)
交叉分組下的頻數分析
在進行數據分析的時候,往往需要對兩個甚至多個分類變量的頻數分佈進行聯合觀察,此時就設計到了多個分類變量的聯合描述。
基本任務
- 根據收集到的樣本數據編制交叉列聯表
- 在交叉列聯表的基礎上,對兩組變量間是否存在一定的相關性進行分析
列聯表
列聯表又稱交叉表,是一種用於交叉表格展示兩個或多個分類變量各類別中頻數大小的統計方式,常用於展示兩個屬性變量值的分佈。列聯表的大小記爲I*J,其中I,J分別表示列聯表的行數和列數。
例如:
行列變量間關係的分析
分析交叉列聯錶行列變量間關係,需要藉助於非參數檢驗方法和度量變量間的相關程度的統計量等手段,通常採用的方法是卡方檢驗法。
- 建立原假設
列聯表分析中卡方檢驗的原假設是:行變量與列變量獨立 - 計算檢驗統計量
Pearson卡方統計量數學定義:
式中,r爲列聯錶行數,c爲列數,f0爲觀察頻數,fe爲期望頻數 - 確定顯著性水平和臨界值
顯著性水平a是指原假設爲真卻將其拒絕的風險,即棄真的概率,通常設爲0.05或0.01。由於卡方統計量服從“(行數-1)*(列數-1)”個自由度的卡方分佈,因此,在行列數目和顯著性水平a確定時,卡方值是唯一確定的。 - 得出結論和決策
兩種決策方法:- 根據統計量觀測值和臨界值比較的結果進行決策
如果卡方觀察值>卡方臨界值,則行列變量不獨立,存在相關關係;
如果卡方觀察值<=卡方臨界值,則認爲卡方值不夠大,實際分佈與期望分佈之間的差異不顯著,不能拒絕原假設,不能拒絕列聯表的行列變量獨立。 - 根據統計量觀察值的概率P-值和顯著性水平a比較的結果進行決策
如果卡方觀測值的概率P-值<a,則認爲在原假設成立的前提下,卡方觀測值出現的概率很小,是一個本不應該發生的小概率事件,但卻發生了,因此不得不拒絕原假設,即列聯表的行列變量間不獨立,存在依存關係;
如果卡方觀測值的概率P-值>a,則認爲在原假設成立的前提下,卡方觀測值出現的概率是非小概率,是極可能發生的,因此沒有理由拒絕原假設,不能拒絕列聯表的行列變量是相互獨立的。
- 根據統計量觀測值和臨界值比較的結果進行決策
說明:
- 列聯表各單元中期望頻數的大小: 列聯表中不應有期望頻數小於1的單元格,或不應有大量的期望頻數小於5的單元格,否則不宜使用卡方檢驗,可以採用似然比卡方檢驗方法進行修正。
- 樣本量的大小: 卡方值的大小會受到樣本量的影響。假設各個單元格中的樣本量均擴大10倍,卡方值也會隨之擴大10倍,但由於自由度和顯著性水平沒有改變,卡方值的臨界值不變,進而使拒絕原假設的可能性增加。
操作
SPSS中,需自行確定顯著性水平,進行決策,卡方檢驗的其餘步驟都由SPSS自動完成。