一、概念理解
置信度、支持度、提升度是評價關聯規則的三個重要指標。
樣本100,條件A=》結果B,A:60,B40,同時發生A和B:30
則:
條件支持度=P(A)=條件A60/樣本100=0.6
結果支持度=P(B)=結果B40/樣本100=0.4(在sas中稱爲預期置信度)
規則支持度=P(A&B)=30/100=0.3
規則置信度=P(B|A)=P(A&B)/P(A)=30/60=0.5,即同時發生的記錄數除以樣本數,
提升度=P(B|A)/P(B)=0.5/0.4=1.25
,注意不要混淆了條件支持度和規則支持度,網文好多隻說支持度,實際上有的指的條件支持度、有的值規則支持度,我今天搞了一早上才恍然大悟,效率低啊,自我鄙視一下。
在spss的apriori的運行結果中還有部署能力的概念,觀察了一下,發現:部署能力=條件支持度-規則支持度,就是說還有多少人有發展空間,比如有10人,符合條件的有7人,同時如何條件和結果的有4人,那部署能力就是7-4=3人了。
二、算法
關聯分析基本就是Apriori算法,沒用過其他的。
apriori算法的具體實現就不說,暫時我也說不清楚,我只追求會用,不求甚解,只知道大概步驟就是:1、根據設置的條件支持度找出頻繁項集;2、分析找出來的這些頻繁項集,得出規則;3、找出大於或等於給定置信度的規則。
一般各個dm軟件跑apriori算法的時候都需要設置:最小條件支持度,最小規則置信度,有的還需要設置最大前項數,spss的modeler就需要設置這三個。