關聯規則與數據分析

關聯規則

1.關聯規則的產生背景

最早是由Agrawal等人提出的(1993)。最初的動機是針對購物籃分析(Basket Analysis)問題提出的,其目的是爲了發現交易數據庫中不同商品的關聯規則。之後諸多的研究人員對關聯規則的挖掘問題進行了大量的研究,主要涉及關聯規則的挖掘理論的探索、原有算法的改進和新算法的設計、增量式關聯規則的挖掘、並行關聯規則的挖掘、模糊關聯規則挖掘以及關聯規則的應用等問題。

2. 基本概念與原理

**1)**關聯規則(AR,Association Rule)反映了一種特定的數據之間的關係。用來揭示數據與數據之間未知的相互依賴關係。他的任務就是:給定一個事物數據庫T,在基於支持度-置信度框架中,發現數據與項目之間大量有趣的相關聯繫,生成所有的置信度和可信度分別高於用戶給定的最小支持度和最小可信度的關聯規則。其算法設計的兩個問題:
(1) 找到所有支持度大於等於最小支持度(min_sup)的項目集(Item Sets),這些項目集稱爲頻繁項目集(Frequent Item Sets)。
(2) 使用步驟(1)找到的頻繁項目集,產生期望的規則。
**2)**關聯規則的評價標準主要是支持度和置信度。支持度和置信度的兩個閾值是描述關聯規則的兩個重要概念。爲了方便將最小的支持度閾值記爲min_sup,最小的置信度閾值記爲min_conf。最小支持度表示項目集在統計意義上的最低重要性。最小置信度表示規則的最低可靠性。
假設 是由m個不同數據項組成的一個集合。給定一個數據事物集T,其中每一個事物記錄t是I的一個非空子集,即 ,每一個事物記錄都有與一個唯一的標識符TID(Transaction ID)相對應。
對於任意一個非空的項集(itemset) ,如果記錄t包含X(即 ),則稱記錄t支持項集X。對於整個數據集T來說,X的支持度定義爲包含X的記錄在數據集T中所佔的比例。即: 在這裏插入圖片描述
式中 表示數據集T中包含的X的記錄個數,|T|表示T中所有記錄的數目。顯而易見, 。如果|X|=k(即|X|表示X中數據項的個數),則稱X爲k-項集。
若X的支持度大於所給定的最小支持度閾值 ,則稱X爲頻繁集。關聯規則是形如 的表達式,其中X、Y是非空項集,且X、Y不相交。關聯規則的支持度定義爲: 在這裏插入圖片描述
其中X爲前項,Y爲後項。 的置信度爲(前項作爲分母)
在這裏插入圖片描述
式中 和 分別表示數據集T中 和X記錄的個數。其中並集可以簡記爲XY。
如果我們所要求的關聯規則支持度大於最小支持度,並且置信度大於最小置信度,稱作合格關聯規則。
※一個關聯規則,計算支持度的工作主要是計數運算,要求遍歷掃描數據集T。
※關聯規則數目的大小是影響挖掘效率的關鍵因素。
查找數據庫中所有的頻繁項目集和它的支持度是關聯規則挖掘研究的重點。
所以下面介紹基於廣度優先搜索策略的關聯規則算法——Apriori算法(通過多次迭代找出所有的頻繁項目集):訪問完一個頻繁項目集的時候,訪問它的超集。

Aprioir算法

是通過項目集元素數目不斷增長來逐步完成項目集的發現。
分爲兩個階段:
迭代所有的頻繁項目集,要求頻繁項目集的支持度不小於最小支持度(用戶設定的)。
從頻繁項目集中構造置信度不低於用戶設定的最小置信度的規則。
即:首先生成1-頻繁項目集L1,然後產生2-頻繁項目集L2(也就是逐層產生候選集),直到不能再拓展頻繁項目集中的
元素的數目的時候,算法停止。
其中,根據項目及空間理論:頻繁集的子集是頻繁集,非頻繁項目集的超級不是頻繁集。
證明:設X是一個項目集,事物數據庫中支持X的元組數爲從s,對X的任意非空子集Y,設T中支持Y的元組數爲s1。
根據頻繁項目集的定義:支持X的一定支持Y,所以
在這裏插入圖片描述
同理可以證明非頻繁集的超集不是頻繁集。
例如:假設事務數據庫爲D(如下表),計算min_sup爲25% min_cof=100%時的關聯規則。
表1 事物數據庫D

TID 項目集
01 ACD
02 BCE
03 ABCE
04 BE

第一次掃描數據庫生成的候選項目集和頻繁集如下表
表2 1-候選項目集

項目集 支持度
A 0.167
B 0.25
C 0.25
D 0.083
E 0.25

表3 1-頻繁項目集

項目集 支持度
B 0.25
C 0.25
E 0.25

第二次掃描:用第一次掃描生成的一項頻繁項目集來生成二項候選集
表4 2-候選項目集

項目集 支持度
BC 0.167
BE 0.25
CE 0.0167

表5 2-頻繁項目集

項目集 支持度
BE 0.25

第二次掃描結束之後只有一個項目集無法再生成三項候選集,所以算法結束。
然後對於二項集計算其置信度,判斷關聯規則是否合格。
|BE|

Rules (左邊的是分母) Conf
Dsupp(BE)/Dsupp(B) 1
Dsupp(BE)/Dsupp(E) 1

由計算得到的置信度我們知道BE關聯規則合格。

用SSAS對醫療數據進行關聯分析

1)Microsoft SQl Server 2008 Analysis Services 的操作步驟

  1. 打開集成環境頁面
    依次執行“開始”→“所有程序”→“Microsoft SQL Server 2008”→“SQL Server Business Intelligence Development Studio”命令,打開Analysis Service集成環境界面。

  2. 新建項目
    (1) 執行菜單欄的“文件”→“新建”→“項目”命令,打開如圖所示的“新建項目”對話框。(2) 選中“Analysis Services”項目,分別在“名稱”、“解決方案名稱”文本框中,填寫項目名稱和解決方案名稱;在“位置”下拉文本框中,單擊右側的“瀏覽”鈕,選擇解決方案的保存路徑。。
    (3) 單擊“確定”按鈕,返回集成環境的起始界面,在右上角顯示“解決方案資源管理器”字樣。

  3. 創建數據源

  4. 創建數據源視圖

  5. 創建適用於中醫的挖掘結構

  6. 部署項目並處理挖掘模型

  7. 模型解釋
    規則由生成的挖掘模型得到了116個規則。其中概率大的重要性不一定大。這裏產生的項集既有單項集也有多項集。在規則上面的各個控制選項中,我們可以選擇最小概率和最低重要性。
    在這裏插入圖片描述圖2 項集
    由圖2我們知道產生的項集有362個,支持代表項集的支持度是多少,上面的下拉選項可以控制最低支持度是多少以及最小項集的大小。

在這裏插入圖片描述在這裏插入圖片描述圖三 癌細胞無轉移情況的關聯程度(上)癌細胞有轉移情況的關聯程度(下)
由圖3我們可以知道在最低支持度爲1最小概率爲0.42的前提下,和癌細胞無轉移情況的有關聯的屬性由圖三(左)中顯示紅色的屬性;和癌細胞有轉移情況有關聯的屬性由圖三(右)中顯示紅色的屬性。其中我們還可以看出腎細胞癌分期>=3.25、患者的年齡歲>=60.3173663616、癌細胞分期 -1.2985798036-3.25、患者的年齡歲-52.3197128896-60.3173663616、腎細胞癌組織內微血管數MVC<64.7726790528,這幾個屬性與癌細胞的轉移或者不轉移都有聯繫。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章