SPSS（十六）SPSS之判別分析（圖文+數據集）

判別分析又稱“分辨法”，是在分類確定的條件下，根據某一研究對象的各種特徵值判別其類型歸屬問題的一種多變量統計分析方法。

聚類分析與判別分析的區別與聯繫
都是研究分類的，在進行聚類分析前，對總體到底有幾種類型不知道（研究分幾類較爲合適需從計算中加以調整）。判別分析則是在總體類型劃分已知，對當前新樣本判斷它們屬於哪個總體。如我們對研究的多元數據的特徵不熟悉，當然要進行聚類分析，才能考慮判別分析問題。

判別分析概述
判別分析的一般形式：y=a1x1+a2x2+……+anxn
非常明確共有幾個類別
目的是從已知樣本中訓練出判別函數

用途
對客戶進行信用預測
尋找潛在客戶

判別分析常用判別方法

最大似然法

用於自變量均爲分類變量的情況

計算出這些情況的概率組合，基於這些組合大小進行判別

距離判別

對新樣品求出他們離各個類別重心的距離遠近
適用於自變量均爲連續變量的情況，對變量分佈類型無嚴格要求

Fisher判別法

與主成份分析有關
對分佈、方差等都沒有什麼限制

按照類別與類別差異最大原則提取公因子然後使用公因子判別

Bayes判別

計算該樣品落入各個子域的概率
強項是進行多類判別
要求總體呈多元正態分佈
利用貝葉斯公式，概率分佈邏輯衍生出來一個判別方法，計算這個樣本落入這個類別的概率，概率最大就被歸爲一類

判別分析適用條件（有點類似多重回歸分析）

各自變量爲連續性或有序分類變量
樣本來自一個多元正態總體，該前提幾乎做不到
各組的協方差矩陣相等，類似與方差分析中的方差齊
變量間獨立，無共線性
違反條件影響也不大，主要看預測準不準，準的話違反也無所謂

判別函數效果的驗證方法

利用判別分析得出判別函數，那我們怎麼其效果好不好？

自身驗證（拿訓練數據直接預測驗證，但是對預測樣本預測好不代表對新樣本預測好）
外部數據驗證（收集新的數據來驗證，這是最客觀最有效的，但是麻煩而且兩次收集的數據不一定是同質的）
樣本二分法（一般劃分2/3爲訓練集，1/3爲驗證集，但是浪費了1/3的樣本）
交互驗證（Cross-Validation）----刀切法（10分法，數據劃分爲10個集合，每次挑選一個出來做驗證集，其餘9個做訓練集，可以做10次，因爲驗證集可換10種可能）

案例：鳶尾花數據（Fisher判別法）

Fisher在研究有關判別分析方法的時候所使用的資料，包含了剛毛、變色、弗吉尼亞這三種鳶尾花的花萼長、寬和花瓣長、寬，分析目的是希望能夠使用這4個變量來對花的種類進行區分。
數據集如下

1	1	50	33	14	2
2	3	67	31	56	24
3	3	89	31	51	23
4	1	46	36	10	2
5	3	65	30	52	20
6	3	58	27	51	19
7	2	57	28	45	13
8	2	63	33	47	16
9	3	49	25	45	17
10	2	70	32	47	14
11	1	48	31	16	2
12	3	63	25	50	19
13	1	49	36	14	1
14	1	44	32	13	2
15	2	58	26	40	12
16	3	63	27	49	18
17	2	50	23	33	10
18	1	51	38	16	2
19	1	50	30	16	2
20	3	64	28	56	21
21	1	51	38	19	4
22	1	49	30	14	2
23	2	58	27	41	10
24	2	60	29	45	15
25	1	50	36	14	2
26	3	58	37	51	19
27	3	64	28	56	22
28	3	63	28	51	15
29	2	62	22	45	15
30	2	61	30	46	14
31	2	56	25	39	11
32	3	68	32	59	23
33	3	62	34	54	23
34	3	67	33	57	25
35	1	55	35	13	2
36	2	64	32	45	15
37	3	59	30	51	18
38	3	64	32	53	23
39	2	54	30	45	15
40	3	67	33	57	21
41	1	44	30	13	2
42	1	47	32	16	2
43	3	72	32	60	18
44	3	61	30	49	18
45	1	50	32	12	2
46	1	43	30	11	1
47	2	67	31	44	14
48	1	51	35	14	2
49	1	50	34	16	4
50	2	57	26	35	10
51	3	77	30	61	23
52	2	57	29	42	13
53	2	65	26	46	15
54	1	46	34	14	3
55	2	59	32	48	18
56	2	60	27	51	16
57	3	65	30	55	18
58	1	51	33	17	5
59	3	77	36	67	22
60	3	76	30	66	21
61	3	67	30	52	23
62	2	61	28	40	13
63	2	55	24	38	11
64	1	52	34	14	2
65	3	79	36	64	20
66	1	50	35	16	6
67	3	77	28	67	20
68	2	55	26	44	12
69	1	48	30	14	3
70	1	48	34	19	2
71	3	61	26	56	14
72	1	58	40	12	2
73	3	62	28	48	18
74	2	56	30	45	15
75	1	46	32	14	2
76	1	57	44	15	4
77	3	68	34	58	24
78	3	72	30	58	16
79	1	54	34	15	4
80	3	64	31	55	18
81	2	49	24	33	10
82	1	55	42	14	2
83	3	60	22	50	15
84	2	52	27	39	14
85	1	44	29	14	2
86	2	58	27	39	12
87	3	69	32	57	23
88	2	59	30	42	15
89	3	56	26	49	20
90	3	67	25	58	18
91	2	63	23	44	13
92	2	63	25	49	15
93	2	51	25	30	11
94	3	69	31	54	21
95	3	72	36	61	25
96	2	56	29	36	13
97	3	68	30	55	21
98	1	48	30	14	1
99	1	57	38	17	3
100	2	66	30	44	14
101	1	51	37	15	4
102	2	67	30	50	17
103	1	52	41	15	1
104	3	60	30	48	18
105	2	56	27	42	13
106	1	49	31	15	2
107	1	54	39	17	4
108	2	60	34	45	16
109	2	50	20	35	10
110	1	47	32	13	2
111	2	62	29	43	13
112	1	51	34	15	2
113	2	60	22	40	10
114	1	49	31	15	1
115	1	54	37	15	2
116	2	61	28	47	12
117	2	57	28	41	13
118	1	54	39	13	4
119	3	65	32	51	20
120	2	69	31	49	15
121	2	55	25	40	13
122	1	45	23	13	3
123	1	51	38	15	3
124	2	68	28	48	14
125	1	52	35	15	2
126	3	63	33	60	25
127	3	71	30	59	21
128	3	63	29	58	18
129	2	57	30	42	12
130	3	77	26	69	23
131	2	66	29	46	13
132	1	50	34	15	2
133	2	55	24	37	10
134	1	46	31	15	2
135	3	74	28	61	19
136	1	50	35	13	3
137	3	73	29	63	18
138	2	67	31	47	15
139	2	56	30	41	13
140	2	64	29	43	13
141	3	65	30	58	22
142	1	51	35	14	3
143	2	61	29	47	14
144	3	64	27	53	19
145	1	48	34	16	2
146	3	57	25	50	20
147	2	55	23	40	13
148	1	54	34	17	2
149	3	58	28	51	24
150	1	53	37	15	2