SPSS(十六)SPSS之判別分析(圖文+數據集)
判別分析又稱“分辨法”,是在分類確定的條件下,根據某一研究對象的各種特徵值判別其類型歸屬問題的一種多變量統計分析方法。
聚類分析與判別分析的區別與聯繫
都是研究分類的,在進行聚類分析前,對總體到底有幾種類型不知道(研究分幾類較爲合適需從計算中加以調整)。判別分析則是在總體類型劃分已知,對當前新樣本判斷它們屬於哪個總體。如我們對研究的多元數據的特徵不熟悉,當然要進行聚類分析,才能考慮判別分析問題。
判別分析概述
判別分析的一般形式:y=a1x1+a2x2+……+anxn
非常明確共有幾個類別
目的是從已知樣本中訓練出判別函數
用途
對客戶進行信用預測
尋找潛在客戶
判別分析常用判別方法
- 最大似然法
用於自變量均爲分類變量的情況
計算出這些情況的概率組合,基於這些組合大小進行判別
- 距離判別
對新樣品求出他們離各個類別重心的距離遠近
適用於自變量均爲連續變量的情況,對變量分佈類型無嚴格要求
- Fisher判別法
與主成份分析有關
對分佈、方差等都沒有什麼限制
按照類別與類別差異最大原則提取公因子然後使用公因子判別
- Bayes判別
計算該樣品落入各個子域的概率
強項是進行多類判別
要求總體呈多元正態分佈
利用貝葉斯公式,概率分佈邏輯衍生出來一個判別方法,計算這個樣本落入這個類別的概率,概率最大就被歸爲一類
判別分析適用條件(有點類似多重回歸分析)
- 各自變量爲連續性或有序分類變量
- 樣本來自一個多元正態總體,該前提幾乎做不到
- 各組的協方差矩陣相等,類似與方差分析中的方差齊
- 變量間獨立,無共線性
- 違反條件影響也不大,主要看預測準不準,準的話違反也無所謂
判別函數效果的驗證方法
利用判別分析得出判別函數,那我們怎麼其效果好不好?
- 自身驗證(拿訓練數據直接預測驗證,但是對預測樣本預測好不代表對新樣本預測好)
- 外部數據驗證(收集新的數據來驗證,這是最客觀最有效的,但是麻煩而且兩次收集的數據不一定是同質的)
- 樣本二分法(一般劃分2/3爲訓練集,1/3爲驗證集,但是浪費了1/3的樣本)
- 交互驗證(Cross-Validation)----刀切法(10分法,數據劃分爲10個集合,每次挑選一個出來做驗證集,其餘9個做訓練集,可以做10次,因爲驗證集可換10種可能)
案例:鳶尾花數據(Fisher判別法)
Fisher在研究有關判別分析方法的時候所使用的資料,包含了剛毛、變色、弗吉尼亞這三種鳶尾花的花萼長、寬和花瓣長、寬,分析目的是希望能夠使用這4個變量來對花的種類進行區分。
數據集如下
1 1 50 33 14 2
2 3 67 31 56 24
3 3 89 31 51 23
4 1 46 36 10 2
5 3 65 30 52 20
6 3 58 27 51 19
7 2 57 28 45 13
8 2 63 33 47 16
9 3 49 25 45 17
10 2 70 32 47 14
11 1 48 31 16 2
12 3 63 25 50 19
13 1 49 36 14 1
14 1 44 32 13 2
15 2 58 26 40 12
16 3 63 27 49 18
17 2 50 23 33 10
18 1 51 38 16 2
19 1 50 30 16 2
20 3 64 28 56 21
21 1 51 38 19 4
22 1 49 30 14 2
23 2 58 27 41 10
24 2 60 29 45 15
25 1 50 36 14 2
26 3 58 37 51 19
27 3 64 28 56 22
28 3 63 28 51 15
29 2 62 22 45 15
30 2 61 30 46 14
31 2 56 25 39 11
32 3 68 32 59 23
33 3 62 34 54 23
34 3 67 33 57 25
35 1 55 35 13 2
36 2 64 32 45 15
37 3 59 30 51 18
38 3 64 32 53 23
39 2 54 30 45 15
40 3 67 33 57 21
41 1 44 30 13 2
42 1 47 32 16 2
43 3 72 32 60 18
44 3 61 30 49 18
45 1 50 32 12 2
46 1 43 30 11 1
47 2 67 31 44 14
48 1 51 35 14 2
49 1 50 34 16 4
50 2 57 26 35 10
51 3 77 30 61 23
52 2 57 29 42 13
53 2 65 26 46 15
54 1 46 34 14 3
55 2 59 32 48 18
56 2 60 27 51 16
57 3 65 30 55 18
58 1 51 33 17 5
59 3 77 36 67 22
60 3 76 30 66 21
61 3 67 30 52 23
62 2 61 28 40 13
63 2 55 24 38 11
64 1 52 34 14 2
65 3 79 36 64 20
66 1 50 35 16 6
67 3 77 28 67 20
68 2 55 26 44 12
69 1 48 30 14 3
70 1 48 34 19 2
71 3 61 26 56 14
72 1 58 40 12 2
73 3 62 28 48 18
74 2 56 30 45 15
75 1 46 32 14 2
76 1 57 44 15 4
77 3 68 34 58 24
78 3 72 30 58 16
79 1 54 34 15 4
80 3 64 31 55 18
81 2 49 24 33 10
82 1 55 42 14 2
83 3 60 22 50 15
84 2 52 27 39 14
85 1 44 29 14 2
86 2 58 27 39 12
87 3 69 32 57 23
88 2 59 30 42 15
89 3 56 26 49 20
90 3 67 25 58 18
91 2 63 23 44 13
92 2 63 25 49 15
93 2 51 25 30 11
94 3 69 31 54 21
95 3 72 36 61 25
96 2 56 29 36 13
97 3 68 30 55 21
98 1 48 30 14 1
99 1 57 38 17 3
100 2 66 30 44 14
101 1 51 37 15 4
102 2 67 30 50 17
103 1 52 41 15 1
104 3 60 30 48 18
105 2 56 27 42 13
106 1 49 31 15 2
107 1 54 39 17 4
108 2 60 34 45 16
109 2 50 20 35 10
110 1 47 32 13 2
111 2 62 29 43 13
112 1 51 34 15 2
113 2 60 22 40 10
114 1 49 31 15 1
115 1 54 37 15 2
116 2 61 28 47 12
117 2 57 28 41 13
118 1 54 39 13 4
119 3 65 32 51 20
120 2 69 31 49 15
121 2 55 25 40 13
122 1 45 23 13 3
123 1 51 38 15 3
124 2 68 28 48 14
125 1 52 35 15 2
126 3 63 33 60 25
127 3 71 30 59 21
128 3 63 29 58 18
129 2 57 30 42 12
130 3 77 26 69 23
131 2 66 29 46 13
132 1 50 34 15 2
133 2 55 24 37 10
134 1 46 31 15 2
135 3 74 28 61 19
136 1 50 35 13 3
137 3 73 29 63 18
138 2 67 31 47 15
139 2 56 30 41 13
140 2 64 29 43 13
141 3 65 30 58 22
142 1 51 35 14 3
143 2 61 29 47 14
144 3 64 27 53 19
145 1 48 34 16 2
146 3 57 25 50 20
147 2 55 23 40 13
148 1 54 34 17 2
149 3 58 28 51 24
150 1 53 37 15 2
總共是三類
典型判別式函數摘要:類似於提取主成分/公因子,方差的%攜帶了原始信息的多少百分比
函數1:攜帶原始信息的99%
函數1:攜帶原始信息的1%
Wilks的Lambda:對函數判定有無價值的檢驗
我們看到兩個函數的Sig.<0.05的,所以都有統計意義
標準化的典型判別式函數係數:判別函數如何寫
函數1=-0.346*花萼長(標準化的)-0.525*花萼寬(標準化的)+0.846*花瓣長(標準化的)+0.613*花瓣寬(標準化的)
函數2同理就不書寫了
結構矩陣:類似於因子分析裏面的載荷,判斷函數與變量之間的關聯
組質心處的函數:各分類對應的中心座標
但是這些結果看起來非常枯燥,有圖像可以輔助
合併圖:三個類別放在一組圖
分組圖:一個類別一張圖
區域圖(領域圖):類與類之間如何劃分?兩個質心的垂直平分線(文本圖)
驗證判別函數好壞
輸出--不考慮該個案時的分類(交互驗證--刀切法)
由於判別分析師不允許有缺失值的,所以勾選上使用均值替換缺失值,但是缺失值缺失大於10%,不介意這麼做
看到其正確率爲98%,是相當好的判別函數了
多元正態性的檢驗(BOX‘s M)
Sig.<0.05證明多元方差齊性是不齊的,證明判別分析適用條件可以違背只要預測效果好就可以
單變量ANOVA:各個自變量在各類別之間是否有差異,四個Sig.<0.05,證明是有差異的
非標準化的判別函數
之前的判別函數都是標準化的,看起來不方便,輸出非標準化之前的結果
這個就可以直接寫出兩個判別函數了,對比一下標化的函數,多了常數項
貝葉斯判別
對每一個類別都會給函數式,扔一個樣本進去計算,哪個得分高,算哪一個類,不過這裏不改先驗概率等參數和典型判別分析結果是一致的
判別分析也可以做變量篩選(不推薦)
一般我們做判別分析前已經做了相關的預分析