SPSS(十二)SPSS對應分析(圖文+數據集)

SPSS(十二)SPSS對應分析(圖文+數據集)

對應分析的介紹

對應分析其實是對分類變量進行信息濃縮的方法,之前的主成分分析/因子分析針對的是連續型的變量

分析分類變量間關係時

  • 卡方檢驗只能給出總體有無關聯的結論,但不能進行精細分析,在變量類別極多時於事無補
  • Logistic模型在多分類時我們可以使用啞變量,但是例如56各民族,我們要弄55個啞變量,自變量還要考慮交互項,幾百個參數,過於笨拙

解決辦法

  • 精細建模:對數線性模型

對數線性模型在探究分類變量與分類變量之間的關係時非常強大,不過太過複雜,不好解釋

  • 直觀展示:對應分析(對於對數線性模型我們可以偷點懶,不要那麼精細,讓其好解釋一點)

 

對應分析的特點

  • 是多維圖示分析技術之一,結果直觀、簡單
  • 與因子分析有關,等價於分類資料的典型相關分析
  • 用於展示兩個/多個分類變量各類間的關係(比如:高收入、黑人、男性傾向於反對開戰)
  • 研究較多分類變量間關係時較佳
  • 各個變量的類別較多時較佳(均爲四類以上)

 

對應分析的實質(理論很複雜,但是結果很明瞭簡單)

  • 就是對列聯表中的數據信息進行濃縮,然後以易於閱讀的圖形方式呈現出來
  • 以默認的卡方測量方式爲例,首先以列聯表爲分析基礎,計算基於H0假設的標化單元格殘差

  • 將每行看成是一條記錄,基於列變量相關係數陣進行因子分析,計算出列變量各類的負荷值
  • 將每列看成是一條記錄,基於行變量相關係數陣進行因子分析,計算出行變量各類的負荷值

一句話來說就是計算出殘差,殘差做因子分析提取主成分之後繪圖(散點圖)表示

 

對應分析的侷限性

  • 不能進行變量間相關關係的檢驗仍然只是一種統計描述方法
  • 解決方案的所需維度需要研究者決定
  • 對極端值敏感對於小樣本不推薦使用

 

案例:頭髮與顏色間存在何種關聯

數據集如下

98	1	1
343	1	2
326	1	3
688	1	4
48	2	1
84	2	2
38	2	3
116	2	4
403	3	1
909	3	2
241	3	3
584	3	4
681	4	1
412	4	2
110	4	3
188	4	4
85	5	1
26	5	2
3	5	3
4	5	4

第一列的數據是加權的

我們先使用百分比堆積圖看會比較直觀一些

我們的對應分析就是比上面那個更加直觀的表示出來,對應分析只是一種統計描述的方法,我們要先進行卡方檢驗

結果如下 :

Pearson卡方檢驗Sig.<0.05證明兩個變量並不是沒有關聯的,並不是完全獨立的

對應分析建模

定義其範圍

 

結果解讀
摘要:就是提取了幾個維度,最多可以提取三個維度,我們看到其只取了兩個維度;摘要裏面有卡方檢驗,其實我們前面單獨做卡方檢驗沒有必要,和前面我們自己手動做卡方檢驗結果一致;比較有用的是慣量比例裏面的解釋,指的是這個信息攜帶了百分之多少的原始信息量

概述行、列點:在兩個維度座標空間中計算出其對應的座標

行和列點:這個就是對應分析圖,也就是我們最終結果呈現

 

爲了方便結果查看,我們添加X/Y參考線,位置都爲0

(0,0)代表無任何傾向,無任何關聯

得到這張圖

 

對應分析圖的閱讀

每個維度可能代表了一種特徵

實際上就是一個提取出的主成分,但由於分類變量的信息較少,可能找不到合理的解釋

1.考察同一變量的區分度:如果同一變量不同類別在某個方向上靠得較近,則說明這些類別在該維度上區別不大。

2.考察不同變量的類別聯繫:一般而言,落在從圖形原點(0,0)處出發相同方位上大致相同區域內的不同變量的分類點彼此有聯繫。散點間距離越近,說明關聯傾向越明顯;散點離原點越遠,也說明關聯傾向越明顯。

 

(注意:遠點周圍的點不要去解釋,因爲原點代表無任何傾向,無任何關聯)

對應分析圖的正確解釋

  • 錯誤的解釋:金色頭髮的兒童中藍色、淺色眼睛者居多
  • 正確的解釋:相對於平均水平而言,金色頭髮的兒童中藍色、淺色眼睛的比例要高一些,也就是高於其他顏色頭髮的兒童

 

 

對應分析補充擴展

假如某一個變量的類別數據量太少我們不想納入模型分析,可以設置其爲補充型,選爲補充型之後類別不會納入模型,但是會顯示結果

變量下面的框框,定義範圍,類別約束裏面選類別爲補充型

 

假如我們想把兩個類別當成一個類別來觀察,還是在剛纔那裏設置,設置爲類別必須相等

 

對應分析中應注意的問題

分析目的:重在觀察行、列變量間的聯繫

數據類型:無序分類較佳,如果均爲有序分類,且變量較多時,採用多維偏好分析更合適

樣本量:對極端值敏感,分析時有必要去除頻數過少的單元格,對於小樣本不推薦使用

變量間關聯:不能將對應分析作爲篩選相關變量的方法,變量納入前最好先做卡方檢驗

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章