參考:http://blog.sina.com.cn/s/blog_5357c0af0101jq6z.html
http://blog.csdn.net/huagong_adu/article/details/17739247
Apriori算法和FPTree算法都是數據挖掘中的關聯規則挖掘算法,處理的都是最簡單的單層單維布爾關聯規則。
Apriori算法
Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。是基於這樣的事實:算法使用頻繁項集性質的先驗知識。Apriori使用一種稱作逐層搜索的迭代方法,k-項集用於探索(k+1)-項集。首先,找出頻繁1-項集的集合。該集合記作L1。L1用於找頻繁2-項集的集合L2,而L2用於找L3,如此下去,直到不能找到頻繁k-項集。找每個Lk需要一次數據庫掃描。
這個算法的思路,簡單的說就是如果集合I不是頻繁項集,那麼所有包含集合I的更大的集合也不可能是頻繁項集。
TID |
List of item_ID’s |
T100 T200 T300 T400 T500 T600 T700 T800 T900 |
I1,I2,I5 I2,I4 I2,I3 I1,I2,I4 I1,I3 I2,I3 I1,I3 I1,I2,I3,I5 I1,I2,I3 |
算法的基本過程如下圖:
首先掃描所有事務,得到1-項集C1,根據支持度要求濾去不滿足條件項集,得到頻繁1-項集。
下面進行遞歸運算:
已知頻繁k-項集(頻繁1-項集已知),根據頻繁k-項集中的項,連接得到所有可能的K+1_項,並進行剪枝(如果該k+1_項集的所有k項子集不都能滿足支持度條件,那麼該k+1_項集被剪掉),得到項集,然後濾去該項集中不滿足支持度條件的項得到頻繁k+1-項集。如果得到的項集爲空,則算法結束。
連接的方法:假設項集中的所有項都是按照相同的順序排列的,那麼如果[i]和[j]中的前k-1項都是完全相同的,而第k項不同,則[i]和[j]是可連接的。比如中的{I1,I2}和{I1,I3}就是可連接的,連接之後得到{I1,I2,I3},但是{I1,I2}和{I2,I3}是不可連接的,否則將導致項集中出現重複項。
關於剪枝再舉例說明一下,如在由生成的過程中,列舉得到的3_項集包括{I1,I2,I3},{I1,I3,I5},{I2,I3,I4},{I2,I3,I5},{I2,I4,I5},但是由於{I3,I4}和{I4,I5}沒有出現在中,所以{I2,I3,I4},{I2,I3,I5},{I2,I4,I5}被剪枝掉了。
海量數據下,Apriori算法的時空複雜度都不容忽視。
空間複雜度:如果數量達到的量級,那麼中的候選項將達到的量級。
FP-Tree算法
FPTree算法的基本數據結構,包含一個一棵FP樹和一個項頭表,每個項通過一個結點鏈指向它在樹中出現的位置。基本結構如下所示。需要注意的是項頭表需要按照支持度遞減排序,在FPTree中高支持度的節點只能是低支持度節點的祖先節點。
另外還要交代一下FPTree算法中幾個基本的概念:
FP-Tree:就是上面的那棵樹,是把事務數據表中的各個事務數據項按照支持度排序後,把每個事務中的數據項按降序依次插入到一棵以NULL爲根結點的樹中,同時在每個結點處記錄該結點出現的支持度。
條件模式基:包含FP-Tree中與後綴模式一起出現的前綴路徑的集合。也就是同一個頻繁項在PF樹中的所有節點的祖先路徑的集合。比如I3在FP樹中一共出現了3次,其祖先路徑分別是{I2,I1:2(頻度爲2)},{I2:2}和{I1:2}。這3個祖先路徑的集合就是頻繁項I3的條件模式基。
條件樹:將條件模式基按照FP-Tree的構造原則形成的一個新的FP-Tree。比如上圖中I3的條件樹就是:
1、 構造項頭表:掃描數據庫一遍,得到頻繁項的集合F和每個頻繁項的支持度。把F按支持度遞降排序,記爲L。
2、 構造原始FPTree:把數據庫中每個事物的頻繁項按照L中的順序進行重排。並按照重排之後的順序把每個事物的每個頻繁項插入以null爲根的FPTree中。如果插入時頻繁項節點已經存在了,則把該頻繁項節點支持度加1;如果該節點不存在,則創建支持度爲1的節點,並把該節點鏈接到項頭表中。
- FP-tree構建
-
- 第一遍掃描數據,找出頻繁1項集L,按降序排序
- 第二遍掃描數據:
- 對每個transaction,過濾不頻繁集合,剩下的頻繁項集按L順序排序
- 把每個transaction的頻繁1項集插入到FP-tree中,相同前綴的路徑可以共用
- 同時增加一個header table,把FP-tree中相同item連接起來,也是降序排序
- ==>
- 頻繁項挖掘
-
- 從header table的最下面的item開始,構造每個item的條件模式基(conditional pattern base)
- 順着header table中item的鏈表,找出所有包含該item的前綴路徑,這些前綴路徑就是該item的條件模式基(CPB)
- 所有這些CPB的頻繁度(計數)爲該路徑上item的頻繁度(計數)
- 如包含p的其中一條路徑是fcamp,該路徑中p的頻繁度爲2,則該CPB fcam的頻繁度爲2
- 構造條件FP-tree(conditional FP-tree)
- 從header table的最下面的item開始,構造每個item的條件模式基(conditional pattern base)
調用FP-growth(Tree,null)開始進行挖掘。僞代碼如下:
procedure FP_growth(Tree, a)
if Tree 含單個路徑P then{
for 路徑P中結點的每個組合(記作b)
產生模式b U a,其支持度support = b 中結點的最小支持度;
} else {
for each a i 在Tree的頭部(按照支持度由低到高順序進行掃描){
產生一個模式b = a i U a,其支持度support = a i .support;
構造b的條件模式基,然後構造b的條件FP-樹Treeb;
if Treeb 不爲空 then
調用 FP_growth (Treeb, b);
}
}
FP-growth是整個算法的核心,再多囉嗦幾句。
FP-growth函數的輸入:tree是指原始的FPTree或者是某個模式的條件FPTree,a是指模式的後綴(在第一次調用時a=NULL,在之後的遞歸調用中a是模式後綴)
FP-growth函數的輸出:在遞歸調用過程中輸出所有的模式及其支持度(比如{I1,I2,I3}的支持度爲2)。每一次調用FP_growth輸出結果的模式中一定包含FP_growth函數輸入的模式後綴。
我們來模擬一下FP-growth的執行過程。
1、 在FP-growth遞歸調用的第一層,模式前後a=NULL,得到的其實就是頻繁1-項集。
2、 對每一個頻繁1-項,進行遞歸調用FP-growth()獲得多元頻繁項集。
下面舉兩個例子說明FP-growth的執行過程。
1、I5的條件模式基是(I2 I1:1), (I2 I1 I3:1),I5構造得到的條件FP-樹如下。然後遞歸調用FP-growth,模式後綴爲I5。這個條件FP-樹是單路徑的,在FP_growth中直接列舉{I2:2,I1:2,I3:1}的所有組合,之後和模式後綴I5取並集得到支持度>2的所有模式:{ I2 I5:2, I1 I5:2, I2 I1 I5:2}。
2、I5的情況是比較簡單的,因爲I5對應的條件FP-樹是單路徑的,我們再來看一下稍微複雜一點的情況I3。I3的條件模式基是(I2 I1:2), (I2:2), (I1:2),生成的條件FP-樹如左下圖,然後遞歸調用FP-growth,模式前綴爲I3。I3的條件FP-樹仍然是一個多路徑樹,首先把模式後綴I3和條件FP-樹中的項頭表中的每一項取並集,得到一組模式{I2 I3:4, I1 I3:4},但是這一組模式不是後綴爲I3的所有模式。還需要遞歸調用FP-growth,模式後綴爲{I1,I3},{I1,I3}的條件模式基爲{I2:2},其生成的條件FP-樹如右下圖所示。這是一個單路徑的條件FP-樹,在FP_growth中把I2和模式後綴{I1,I3}取並得到模式{I1 I2 I3:2}。理論上還應該計算一下模式後綴爲{I2,I3}的模式集,但是{I2,I3}的條件模式基爲空,遞歸調用結束。最終模式後綴I3的支持度>2的所有模式爲:{ I2 I3:4, I1 I3:4, I1 I2 I3:2}
item |
條件模式基 |
條件FP-樹 |
產生的頻繁模式 |
I5 I4 I3 I1 |
{(I2 I1:1),(I2 I1 I3:1) {(I2 I1:1), (I2:1)} {(I2 I1:2), (I2:2), (I1:2)} {(I2:4)} |
,
|
I2 I5:2, I1 I5:2, I2 I1 I5:2 I2 I4:2 I2 I3:4, I1 I3:4, I2 I1 I3:2 I2 I1:4 |
FP-growth算法比Apriori算法快一個數量級,在空間複雜度方面也比Apriori也有數量級級別的優化。但是對於海量數據,FP-growth的時空複雜度仍然很高,可以採用的改進方法包括數據庫劃分,數據採樣等等。