SPSS modeler 關聯規則 評價指標解釋

一、概念理解

置信度、支持度、提升度是評價關聯規則的三個重要指標。

樣本100,條件A=》結果B,A:60,B40,同時發生A和B:30

則:

條件支持度=P(A)=條件A60/樣本100=0.6

結果支持度=P(B)=結果B40/樣本100=0.4(在sas中稱爲預期置信度)

規則支持度=P(A&B)=30/100=0.3

規則置信度=P(B|A)=P(A&B)/P(A)=30/60=0.5,即同時發生的記錄數除以樣本數,

提升度=P(B|A)/P(B)=0.5/0.4=1.25

,注意不要混淆了條件支持度和規則支持度,網文好多隻說支持度,實際上有的指的條件支持度、有的值規則支持度,我今天搞了一早上才恍然大悟,效率低啊,自我鄙視一下。

在spss的apriori的運行結果中還有部署能力的概念,觀察了一下,發現:部署能力=條件支持度-規則支持度,就是說還有多少人有發展空間,比如有10人,符合條件的有7人,同時如何條件和結果的有4人,那部署能力就是7-4=3人了。

 

二、算法

關聯分析基本就是Apriori算法,沒用過其他的。

apriori算法的具體實現就不說,暫時我也說不清楚,我只追求會用,不求甚解,只知道大概步驟就是:1、根據設置的條件支持度找出頻繁項集;2、分析找出來的這些頻繁項集,得出規則;3、找出大於或等於給定置信度的規則。

一般各個dm軟件跑apriori算法的時候都需要設置:最小條件支持度,最小規則置信度,有的還需要設置最大前項數,spss的modeler就需要設置這三個。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章