1、Merge函數
merge(x, y, by = intersect(names(x), names(y)),
by.x = by, by.y = by, all = FALSE, all.x = all, all.y = all,
sort
= TRUE, suffixes = c(
".x"
,
".y"
),
incomparables = NULL, ...)
merge函數參數的說明:
x,y:用於合併的兩個數據框
by,by.x,by.y:指定依據哪些行合併數據框,默認值爲相同列名的列.
all,all.x,all.y:指定x和y的行是否應該全在輸出文件.
sort:by指定的列是否要排序.
suffixes:指定除by外相同列名的後綴.
incomparables:指定by中哪些單元不進行合併.
(圖爲其他博客上摘錄下來的)
2、subset函數
%in%——精確匹配 items %in% c("A","B")
%pin%——部分匹配
%ain%——完全匹配
示例:
rules.subset = subset(RulesRep,subset = lhs%in%"全脂牛奶"&lift>=1.5)
inspect(rules.subset)
3、sort()、rank()、order()
sort()是對向量從小到大排序
rank()返回的是對向量中每個數值對應的秩
order()返回的值表示位置,依次對應的是向量的最小值、次小值、第三小值……最大值
示例:
data=c(5,6,7,2,4,9)
sort(data)
rank(data)
order(data)
iris<-data.frame(iris)
iris[order(-iris$Sepal.Length),]
4、read.transactions中format和cols參數說明
format=c("basket", "single")——用於註明源數據的格式。
- 如果源數據每行內容就是一條交易購買的商品列表(類似於一行就是一個購物籃)那麼使用basket;
- 如果每行內容是交易號+單個商品,那麼使用single。
cols=c( ) ——對於single格式,需要指定cols,二元向量(數字或字符串)。
如果是字符串,那麼文件的第一行是表頭(即列名)。第一個元素是交易號的字段名,第二個元素是商品編號的字段名。如果是數字,那麼無需表頭。對於basket,一般設置爲NULL,缺省也是NULL,所以不用指定。
5、inspect、quality使用
inspect( ):查看關聯規則
——按提升度排序規則
rules_data<-inspect(sort(RulesRep, by = "lift"))
quality():提取規則中支持度、置信度、提升度
6、itemFrequencyPlot作圖
提取TransRep關聯規則中支持度大於0.07佔比前10的item的項
itemFrequencyPlot(TransRep1,topN=10,horiz=T,support = 0.07)
horiz=T
horiz=F