R語言 數據挖掘:R語言實戰 第六章 關聯分析

關注微信公共號:小程在線

關注CSDN博客:程志偉的博客

舉例說明關聯規則裏面的核心概念--支持度、置信度、提升度

假設有10000個消費者,購買了1000個尿布,2000個啤酒,500個麪包,這其中同時購買尿布和啤酒的800個,同時購買尿布和麪包的100個。

1)支持度:在所有項集中{X,Y}出現的概率。可以通過設置最小的支持度,來剔除那邊沒有關聯的商品。

     尿布和啤酒額支持度=800/10000=8%,尿布和啤酒的概率爲100/10000=1%,假設支持度爲5%,則尿布和啤酒滿足

2)置信度:在條件X發生下,Y發生的概率。

     購買尿布後購買啤酒的置信度爲800/1000=80%,而購買啤酒後購買尿布的概率爲800/2000=40%,假設置信度爲60%,則購買尿布後購買啤酒滿足條件。

3)提升度:同時含有X、Y與沒有X只有Y的比

假設1000個消費者,500人購買了大米,其中400人購買了小米,置信度爲400/500=80%,而另外500人沒有購買大米,但是有400人購買了小米,置信度也爲80%。購買小米和先購買大米沒有關聯,兩者獨立存在,80%/(400+400)/1000=1。提升度彌補了置信度的缺陷。當提升度爲1時,相互獨立,提升度越大,關聯性越強。

''''
apriori函數:
parameter:  
   support=0.1 confidence=0.8 maxlen=10 minlen=1 
   target='rules/frequent itemsets'
   
appearance:
    lhs=beer
control:
    sort=1 sort = -1

eclat函數
''''

 

#加載數據集,獲取數據,共包含9835條交易,169項

> library(arules)
> data('Groceries')
> s

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章