R初學——Apriori算法筆記（購物籃分析）

原創

取网名好难

2020-06-19 18:45

1、Merge函數

merge(x, y, by = intersect(names(x), names(y)),

by.x = by, by.y = by, all = FALSE, all.x = all, all.y = all,

sort = TRUE, suffixes = c(".x",".y"),

incomparables = NULL, ...)

merge函數參數的說明:

x,y:用於合併的兩個數據框

by,by.x,by.y:指定依據哪些行合併數據框,默認值爲相同列名的列.

all,all.x,all.y:指定x和y的行是否應該全在輸出文件.

sort:by指定的列是否要排序.

suffixes:指定除by外相同列名的後綴.

incomparables:指定by中哪些單元不進行合併.

（圖爲其他博客上摘錄下來的）

2、subset函數

%in%——精確匹配 items %in% c("A","B")

%pin%——部分匹配

%ain%——完全匹配

示例：

rules.subset = subset(RulesRep,subset = lhs%in%"全脂牛奶"&lift>=1.5)
inspect(rules.subset)

3、sort()、rank()、order()
sort()是對向量從小到大排序
rank()返回的是對向量中每個數值對應的秩
order()返回的值表示位置，依次對應的是向量的最小值、次小值、第三小值……最大值

示例：

data=c(5,6,7,2,4,9)
sort(data)
rank(data)
order(data)

iris<-data.frame(iris)
iris[order(-iris$Sepal.Length),]

4、read.transactions中format和cols參數說明

format=c("basket", "single")——用於註明源數據的格式。

如果源數據每行內容就是一條交易購買的商品列表（類似於一行就是一個購物籃）那麼使用basket；
如果每行內容是交易號+單個商品，那麼使用single。

cols=c( ) ——對於single格式，需要指定cols，二元向量（數字或字符串）。

如果是字符串，那麼文件的第一行是表頭（即列名）。第一個元素是交易號的字段名，第二個元素是商品編號的字段名。如果是數字，那麼無需表頭。對於basket，一般設置爲NULL，缺省也是NULL，所以不用指定。

5、inspect、quality使用

inspect( )：查看關聯規則

——按提升度排序規則

rules_data<-inspect(sort(RulesRep, by = "lift"))

quality()：提取規則中支持度、置信度、提升度

6、itemFrequencyPlot作圖

提取TransRep關聯規則中支持度大於0.07佔比前10的item的項

itemFrequencyPlot(TransRep1,topN=10,horiz=T,support = 0.07)

horiz=T

horiz=F

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

R初學——Apriori算法筆記（購物籃分析）

python gdal 安裝使用（Windows， python 3.6.8）

Python字典嵌套

Python初學——函數的應用之註冊登錄系統

報錯：ModuleNotFoundError: No module named 'PIL'

Python初學——猜拳遊戲

Python初學——遞歸法、匿名函數

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結