交叉分組下的頻數分析

在進行數據分析的時候，往往需要對兩個甚至多個分類變量的頻數分佈進行聯合觀察，此時就設計到了多個分類變量的聯合描述。

基本任務

根據收集到的樣本數據編制交叉列聯表
在交叉列聯表的基礎上，對兩組變量間是否存在一定的相關性進行分析

列聯表

列聯表又稱交叉表，是一種用於交叉表格展示兩個或多個分類變量各類別中頻數大小的統計方式，常用於展示兩個屬性變量值的分佈。列聯表的大小記爲I*J，其中I,J分別表示列聯表的行數和列數。
例如：

行列變量間關係的分析

分析交叉列聯錶行列變量間關係，需要藉助於非參數檢驗方法和度量變量間的相關程度的統計量等手段，通常採用的方法是卡方檢驗法。

建立原假設
列聯表分析中卡方檢驗的原假設是：行變量與列變量獨立
計算檢驗統計量
Pearson卡方統計量數學定義：

式中，r爲列聯錶行數，c爲列數，f0爲觀察頻數，fe爲期望頻數
確定顯著性水平和臨界值
顯著性水平a是指原假設爲真卻將其拒絕的風險，即棄真的概率，通常設爲0.05或0.01。由於卡方統計量服從“（行數-1）*（列數-1）”個自由度的卡方分佈，因此，在行列數目和顯著性水平a確定時，卡方值是唯一確定的。
得出結論和決策
兩種決策方法：
- 根據統計量觀測值和臨界值比較的結果進行決策
  如果卡方觀察值>卡方臨界值，則行列變量不獨立，存在相關關係；
  如果卡方觀察值<=卡方臨界值，則認爲卡方值不夠大，實際分佈與期望分佈之間的差異不顯著，不能拒絕原假設，不能拒絕列聯表的行列變量獨立。
- 根據統計量觀察值的概率P-值和顯著性水平a比較的結果進行決策
  如果卡方觀測值的概率P-值<a，則認爲在原假設成立的前提下，卡方觀測值出現的概率很小，是一個本不應該發生的小概率事件，但卻發生了，因此不得不拒絕原假設，即列聯表的行列變量間不獨立，存在依存關係；
  如果卡方觀測值的概率P-值>a，則認爲在原假設成立的前提下，卡方觀測值出現的概率是非小概率，是極可能發生的，因此沒有理由拒絕原假設，不能拒絕列聯表的行列變量是相互獨立的。

說明：

列聯表各單元中期望頻數的大小： 列聯表中不應有期望頻數小於1的單元格，或不應有大量的期望頻數小於5的單元格，否則不宜使用卡方檢驗，可以採用似然比卡方檢驗方法進行修正。
樣本量的大小： 卡方值的大小會受到樣本量的影響。假設各個單元格中的樣本量均擴大10倍，卡方值也會隨之擴大10倍，但由於自由度和顯著性水平沒有改變，卡方值的臨界值不變，進而使拒絕原假設的可能性增加。

操作

SPSS中，需自行確定顯著性水平，進行決策，卡方檢驗的其餘步驟都由SPSS自動完成。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

SPSS：基本統計分析（二）

SPSS：基本統計分析（二）

交叉分組下的頻數分析

基本任務

列聯表

行列變量間關係的分析

操作

如何使用 JS 判斷用戶是否處於活躍狀態

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

SPSS實戰：單因素方差分析（ANOVA）

S.P. Poisson過程

S.P.特徵函數

S.P.隨機模擬（Python實現）

【窮舉法】應急設施位置選取的程序實現

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結