首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据挖掘系列(2)--关联规则FpGrowth算法

FpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,所以效率会比较高。...二、利用FpTree挖掘频繁项集   FpTree建好后,就可以进行频繁项集的挖掘,挖掘算法称为FpGrowth(Frequent Pattern Growth)算法,挖掘从表头header的最后一个项开始...: 3频繁项集: 面包 尿布 3尿布 牛奶 3牛奶 4面包 牛奶 3尿布 啤酒 3面包 4   另外我下载了一个购物篮的数据集,数据量较大,测试了一下FpGrowth...FpGrowth算法的平均效率远高于Apriori算法,但是它并不能保证高效率,它的效率依赖于数据集,当数据集中的频繁项集的没有公共项时,所有的项集都挂在根结点上,不能实现压缩存储,而且Fptree还需要其他的开销...,需要存储空间更大,使用FpGrowth算法前,对数据分析一下,看是否适合用FpGrowth算法。

1.1K90
您找到你想要的搜索结果了吗?
是的
没有找到

【数据挖掘 | 关联规则】FP-grow算法详解(附详细代码、案例实战、学习资源)

经典案例和代码实现: 以下是一个使用Python的mlxtend库实现FP-Growth算法的示例代码: from mlxtend.frequent_patterns import fpgrowth from...函数查找频繁项集 frequent_itemsets = fpgrowth(df, min_support=0.2, use_colnames=True) print(frequent_itemsets...) 这里使用了mlxtend库中的fpgrowth函数来执行FP-Growth算法。...首先,将事务数据集转换为布尔矩阵表示,然后调用fpgrowth函数来寻找指定最小支持度阈值的频繁项集。 另外,如果你想使用自己实现的FP-Growth算法,可以参考相关的开源实现和算法细节。...ACM SIGMOD Record, 22(2), 207-216. mlxtend documentation: https://rasbt.github.io/mlxtend/ Python implementation

46610

数据挖掘系列(4)使用weka做关联规则挖掘

规则挖取   我们先用标准数据集normalBasket.arff[1]试一下,weka的apriori算法和FPGrowth算法。   ...设置好参数后点击start运行可以看到Apriori的运行结果:   FPGrowth运行的结果是一样的:   每条规则都带有出现次数、自信度、相关度等数值。   ...retail.txt转化而来,为了不造成误解,我在id好前加了一个"I",比如2变为I2),这个数据用的稀疏数据表示方法,数据记录有88162条,用Apriori算法在我的2G电脑上跑不出来,直接内存100%,用FPGrowth...来源:www.cnblogs.com/fengfenggirl 系列好文: 数据挖掘系列(1)关联规则挖掘基本概念与Aprior算法 数据挖掘系列(2)--关联规则FpGrowth算法 数据挖掘系列

2.7K60

大数据技术之_19_Spark学习_08_Spark 机器学习_02_凸优化算法 + 线性回归算法 + FPGrowth 关联规则算法 + 决策树 + 随机森林算法

训练模型的均方误差为 = 106.31223022762704 第7章 FPGrowth 关联规则算法 7.1算法思想   FPGrowth 算法通过构造一个 FPTree 树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录...FPGrowth挖掘过程如下图所示: ?...{SparkConf, SparkContext} import org.apache.spark.mllib.fpm.FPGrowth object FPGrowth extends App {...new SparkContext(conf)   // 加载数据样本   val path = "D:\\learn\\JetBrains\\workspace_idea\\spark\\doc\\fpgrowth.txt...最小支持度 [0,1]   val minSupport = 0.4   // 计算的并行度   val numPartition = 2   // 训练模型   val model = new FPGrowth

80931

Python构建大数据推荐系统:一个世界500强企业的成功案例

我们使用Python和SKlearn等第三方库,基于协同过滤和关联算法实现推荐逻辑,并通过AB测试评估推荐效果。...在最开始做商业理解和项目计划时,我们会详细介绍流量数据埋点的规划、设计、代码部署、测试、校验等步骤,以及使用Python等库进行数据清洗、分析、可视化等操作;更重要的是如何定义商业目标以及与推荐系统的子目标协同...我们使用Google Analytics 360进行数据埋点和分析,以及使用Python的Pandas、Numpy、Matplotlib等进行数据处理和可视化,例如使用SKlearn中的SVD、GBDT...等算法实现协同过滤推荐,以及使用MLlib中的FPGrowth和Prefixspan算法实现关联规则推荐的方法。

18650
领券