有奖捉虫:行业应用 & 管理与支持文档专题 HOT
注意:
部分输出请在高级设置中查看。

关联规则挖掘

原理

算法说明

FPGrowth 是关联规则的一种实现方式,该算法将大规模的频繁集构建成 FPTree ,提高了提取频繁集的效率。 Jarvis 提供的 FPGrowth 是 Li et al., PFP: Parallel FP-growth for query recommendation 论文的并行实现,支持大规模的频繁集挖掘和关联规则的生成。

预测方法

首先根据频繁项集生成关联规则。然后对于 itemsCol 中的每个事务,变换方法将其项与每个关联规则的前因进行比较。 如果记录包含特定关联规则的所有前提,则该规则将被视为适用,并且其结果将被添加到预测项中。 预测方法将所有适用规则的结果总结为预测项。

参数配置

算法 IO 参数
*输出数据包含 header 信息:默认为“是”。
*输出数据分隔符:数据分隔符,默认为逗号,可下拉选择其他分隔符。
算法参数
*最小置信度:范围:0 - 1.0 ,规则的置信度阈值,算法会过滤掉小于该阈值的规则。
*最小支持度:范围:0 - 1.0 ,频繁集的支持度阈值,item 出现的次数除以整个数据集的样本数。小于该阈值的频繁集将会被过滤。

Demo

输入数据示例

示例数据不包含列名,每一行为一条数据记录,包含了多个不同的商品。
brand milk
brand nappy bear egg
milk nappy bear coco
brand milk nappy bear
brand milk nappy coco

参数配置

算法 IO 参数
*输出数据包含 header 信息:是
*输出数据分隔符:逗号
算法参数
*最大置信度:0.5
*最小支持度:0.3

输出数据示例

输出为算法发现的符合参数设定的关联规则列表,其中第一列为规则的条件,第二列为结果,第三列为置信度。
antecedent,consequent,confidence
milk,brand,0.75
milk,coco,0.5
milk,nappy,0.75
milk,bear,0.5
"bear,nappy",brand,0.6666666666666666
"bear,nappy",milk,0.6666666666666666
"bear,brand",nappy,1.0
"brand,milk",nappy,0.6666666666666666
bear,brand,0.6666666666666666
bear,milk,0.6666666666666666
bear,nappy,1.0
"milk,nappy",brand,0.6666666666666666
"milk,nappy",coco,0.6666666666666666
"milk,nappy",bear,0.6666666666666666
"brand,nappy",milk,0.6666666666666666
"brand,nappy",bear,0.6666666666666666
"coco,milk",nappy,1.0
nappy,brand,0.75
nappy,coco,0.5
nappy,milk,0.75
nappy,bear,0.75
"bear,milk",nappy,1.0
coco,milk,1.0
coco,nappy,1.0
brand,milk,0.75
brand,nappy,0.75
brand,bear,0.5
"coco,nappy",milk,1.0

预测过程

预测的输入数据为已知的 item 集合,输出为根据规则预测得到的关联项,如下所示:
items,prediction
"brand,milk","coco,nappy,bear"
"brand,nappy,bear,egg","milk,coco"
"milk,nappy,bear,coco",brand
"brand,milk,nappy,bear",coco
"brand,milk,nappy,coco",bear