參考：http://blog.sina.com.cn/s/blog_5357c0af0101jq6z.html

http://blog.csdn.net/huagong_adu/article/details/17739247

Apriori算法和FPTree算法都是數據挖掘中的關聯規則挖掘算法，處理的都是最簡單的單層單維布爾關聯規則。

Apriori算法

Apriori算法是一種最有影響的挖掘布爾關聯規則頻繁項集的算法。是基於這樣的事實：算法使用頻繁項集性質的先驗知識。Apriori使用一種稱作逐層搜索的迭代方法，k-項集用於探索(k+1)-項集。首先，找出頻繁1-項集的集合。該集合記作L₁。L₁用於找頻繁2-項集的集合L₂，而L₂用於找L₃，如此下去，直到不能找到頻繁k-項集。找每個L_k需要一次數據庫掃描。

這個算法的思路，簡單的說就是如果集合I不是頻繁項集，那麼所有包含集合I的更大的集合也不可能是頻繁項集。

算法原始數據如下：

TID

List of item_ID’s

T100

T200

T300

T400

T500

T600

T700

T800

T900

I1,I2,I5

I2,I4

I2,I3

I1,I2,I4

I1,I3

I2,I3

I1,I3

I1,I2,I3,I5

I1,I2,I3

算法的基本過程如下圖：

首先掃描所有事務，得到1-項集C1，根據支持度要求濾去不滿足條件項集，得到頻繁1-項集。

下面進行遞歸運算：

已知頻繁k-項集(頻繁1-項集已知)，根據頻繁k-項集中的項，連接得到所有可能的K+1_項，並進行剪枝（如果該k+1_項集的所有k項子集不都能滿足支持度條件，那麼該k+1_項集被剪掉），得到項集，然後濾去該項集中不滿足支持度條件的項得到頻繁k+1-項集。如果得到的項集爲空，則算法結束。

連接的方法：假設項集中的所有項都是按照相同的順序排列的，那麼如果[i]和[j]中的前k-1項都是完全相同的，而第k項不同，則[i]和[j]是可連接的。比如中的{I1,I2}和{I1,I3}就是可連接的，連接之後得到{I1,I2,I3}，但是{I1,I2}和{I2,I3}是不可連接的，否則將導致項集中出現重複項。

關於剪枝再舉例說明一下，如在由生成的過程中，列舉得到的3_項集包括{I1,I2,I3},{I1,I3,I5},{I2,I3,I4},{I2,I3,I5},{I2,I4,I5}，但是由於{I3,I4}和{I4,I5}沒有出現在中，所以{I2,I3,I4},{I2,I3,I5},{I2,I4,I5}被剪枝掉了。

海量數據下，Apriori算法的時空複雜度都不容忽視。

空間複雜度：如果數量達到的量級，那麼中的候選項將達到的量級。

時間複雜度：每計算一次就需要掃描一遍數據庫。

FP-Tree算法

Apriori通過不斷的構造候選集、篩選候選集挖掘出頻繁項集，需要多次掃描原始數據，當原始數據較大時，磁盤I/O次數太多，效率比較低下。FPGrowth算法則只需掃描原始數據兩遍，通過FP-tree數據結構對原始數據進行壓縮，效率較高。

FPGrowth算法主要分爲兩個步驟：FP-tree構建、遞歸挖掘FP-tree。FP-tree構建通過兩次數據掃描，將原始數據中的事務壓縮到一個FP-tree樹，該FP-tree類似於前綴樹，相同前綴的路徑可以共用，從而達到壓縮數據的目的。接着通過FP-tree找出每個item的條件模式基、條件FP-tree，遞歸的挖掘條件FP-tree得到所有的頻繁項集。算法的主要計算瓶頸在FP-tree的遞歸挖掘上，下面詳細介紹FPGrowth算法的主要步驟。

FPTree算法的基本數據結構，包含一個一棵FP樹和一個項頭表，每個項通過一個結點鏈指向它在樹中出現的位置。基本結構如下所示。需要注意的是項頭表需要按照支持度遞減排序，在FPTree中高支持度的節點只能是低支持度節點的祖先節點。

另外還要交代一下FPTree算法中幾個基本的概念：

FP-Tree：就是上面的那棵樹，是把事務數據表中的各個事務數據項按照支持度排序後，把每個事務中的數據項按降序依次插入到一棵以NULL爲根結點的樹中，同時在每個結點處記錄該結點出現的支持度。

條件模式基：包含FP-Tree中與後綴模式一起出現的前綴路徑的集合。也就是同一個頻繁項在PF樹中的所有節點的祖先路徑的集合。比如I3在FP樹中一共出現了3次，其祖先路徑分別是{I2，I1：2(頻度爲2)}，{I2：2}和{I1：2}。這3個祖先路徑的集合就是頻繁項I3的條件模式基。

條件樹：將條件模式基按照FP-Tree的構造原則形成的一個新的FP-Tree。比如上圖中I3的條件樹就是：

1、構造項頭表：掃描數據庫一遍，得到頻繁項的集合F和每個頻繁項的支持度。把F按支持度遞降排序，記爲L。

2、構造原始FPTree：把數據庫中每個事物的頻繁項按照L中的順序進行重排。並按照重排之後的順序把每個事物的每個頻繁項插入以null爲根的FPTree中。如果插入時頻繁項節點已經存在了，則把該頻繁項節點支持度加1；如果該節點不存在，則創建支持度爲1的節點，並把該節點鏈接到項頭表中。

FPGrowth的算法步驟：

FP-tree構建

1. 第一遍掃描數據，找出頻繁1項集L，按降序排序
2. 第二遍掃描數據：
  - 對每個transaction，過濾不頻繁集合，剩下的頻繁項集按L順序排序
  - 把每個transaction的頻繁1項集插入到FP-tree中，相同前綴的路徑可以共用
  - 同時增加一個header table，把FP-tree中相同item連接起來，也是降序排序
  - ==>

頻繁項挖掘
1. 從header table的最下面的item開始，構造每個item的條件模式基（conditional pattern base）
  - 順着header table中item的鏈表，找出所有包含該item的前綴路徑，這些前綴路徑就是該item的條件模式基（CPB）
  - 所有這些CPB的頻繁度（計數）爲該路徑上item的頻繁度（計數）
  - 如包含p的其中一條路徑是fcamp，該路徑中p的頻繁度爲2，則該CPB fcam的頻繁度爲2
2. 構造條件FP-tree（conditional FP-tree）
  - 累加每個CPB上的item的頻繁度（計數），過濾低於閾值的item，構建FP-tree
  - 如m的CPB{<fca:2>, <fcab:1>}，f:3, c:3, a:3, b:1, 閾值假設爲3，過濾掉b

調用FP-growth(Tree，null)開始進行挖掘。僞代碼如下：

procedure FP_growth(Tree, a)

if Tree 含單個路徑P then{

for 路徑P中結點的每個組合（記作b）

產生模式b U a，其支持度support = b 中結點的最小支持度；

} else {

for each a _i 在Tree的頭部(按照支持度由低到高順序進行掃描){

產生一個模式b = a _i U a，其支持度support = a _i.support；

構造b的條件模式基，然後構造b的條件FP-樹Treeb；

if Treeb 不爲空 then

調用 FP_growth (Treeb, b)；

}

FP-growth是整個算法的核心，再多囉嗦幾句。

FP-growth函數的輸入：tree是指原始的FPTree或者是某個模式的條件FPTree，a是指模式的後綴（在第一次調用時a=NULL，在之後的遞歸調用中a是模式後綴）

FP-growth函數的輸出：在遞歸調用過程中輸出所有的模式及其支持度（比如{I1,I2,I3}的支持度爲2）。每一次調用FP_growth輸出結果的模式中一定包含FP_growth函數輸入的模式後綴。

我們來模擬一下FP-growth的執行過程。

1、在FP-growth遞歸調用的第一層，模式前後a=NULL，得到的其實就是頻繁1-項集。

2、對每一個頻繁1-項，進行遞歸調用FP-growth()獲得多元頻繁項集。

下面舉兩個例子說明FP-growth的執行過程。

1、I5的條件模式基是(I2 I1:1), (I2 I1 I3:1)，I5構造得到的條件FP-樹如下。然後遞歸調用FP-growth，模式後綴爲I5。這個條件FP-樹是單路徑的，在FP_growth中直接列舉{I2:2，I1:2，I3:1}的所有組合，之後和模式後綴I5取並集得到支持度>2的所有模式：{ I2 I5:2, I1 I5:2, I2 I1 I5:2}。

2、I5的情況是比較簡單的，因爲I5對應的條件FP-樹是單路徑的，我們再來看一下稍微複雜一點的情況I3。I3的條件模式基是(I2 I1:2), (I2:2), (I1:2)，生成的條件FP-樹如左下圖，然後遞歸調用FP-growth，模式前綴爲I3。I3的條件FP-樹仍然是一個多路徑樹，首先把模式後綴I3和條件FP-樹中的項頭表中的每一項取並集，得到一組模式{I2 I3:4, I1 I3:4}，但是這一組模式不是後綴爲I3的所有模式。還需要遞歸調用FP-growth，模式後綴爲{I1，I3}，{I1，I3}的條件模式基爲{I2：2}，其生成的條件FP-樹如右下圖所示。這是一個單路徑的條件FP-樹，在FP_growth中把I2和模式後綴{I1，I3}取並得到模式{I1 I2 I3：2}。理論上還應該計算一下模式後綴爲{I2，I3}的模式集，但是{I2，I3}的條件模式基爲空，遞歸調用結束。最終模式後綴I3的支持度>2的所有模式爲：{ I2 I3:4, I1 I3:4, I1 I2 I3:2}

根據FP-growth算法，最終得到的支持度>2頻繁模式如下：

item

條件模式基

條件FP-樹

產生的頻繁模式

{(I2 I1:1),(I2 I1 I3:1)

{(I2 I1:1), (I2:1)}

{(I2 I1:2), (I2:2), (I1:2)}

{(I2:4)}

I2 I5:2, I1 I5:2, I2 I1 I5:2

I2 I4:2

I2 I3:4, I1 I3:4, I2 I1 I3:2

I2 I1:4

FP-growth算法比Apriori算法快一個數量級，在空間複雜度方面也比Apriori也有數量級級別的優化。但是對於海量數據，FP-growth的時空複雜度仍然很高，可以採用的改進方法包括數據庫劃分，數據採樣等等。

頻繁項集挖掘算法Apriori FPGrowth

Apriori算法

FP-Tree算法

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

頻繁項集挖掘算法Apriori FPGrowth

機器學習中常用算法總結

推薦系統筆記三、基於近鄰的推薦系統（進階篇）

LDA-math-MCMC 和 Gibbs Sampling

PCA和SVD區別和聯繫

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結