机器学习实战:FP-growth算法示例

Hello,大家好!我是MPIG2018级研究生陈守钊。在FP-growth算法讲解中,我相信前面我们的两个同学已经给大家带来了详细的讲解与说明,今天我给大家讲解的就是对FP-growth算法的具体应用框架与应用拓展。

我们知道,FP-growth算法能快速的找到频繁项集,FP-growth算法只需要对数据库进行两次扫描,而Apriori算法在求每个潜在的频繁项集时都需要扫描一次数据集,所以说Apriori算法是高效的。而如今对于大数据的处理,上百万条的信息都是一个很小的数量级,这时候算法效率就会对数据处理产生很大的影响。

今天我讲解的例子是具有百万数量级的一个数据集,利用FP-growth算法对频繁项集的查找过程。

从新闻网站点击流中挖掘

源数据集合中,它包含近100万条记录。该数据集合中的每一行包含某个用户浏览过的新闻报道。一些用户只看过一片报道,而有一些用户看过2498篇报道。用户和报道被编码成整数,所以查看频繁项集很难得到更多的东西,但是该数据对于展示FP-growth算法的速度十分有效。

首先,将数据集导入到列表

对初始集合格式化

构建FP树,并从中寻找至少被10万人浏览过的新闻报道

这是根据条件的得到的FP树

频繁项集的可视化

最后得到的所有频繁项集

对于处理好的数据集来说,FP-growth算法的处理流程并不是很复杂,对于很多算法来说,数据的输入与输出利用函数的调用就可以解决了,而对于算法的处理结果我们如何去运用到实际生活中,需要我们进行更深层次的挖掘。

生活中我们对于FP-growth算法的运用可以运用到很多的方面,下面是对于FP-growth算法的一些应用领域进行举例,具体的代码不进行分析。

FP-growth算法的其他运用场景

想要更加详细了解本讲更多细节的内容吗?那就一起来观看下面的Presentation的具体讲解吧:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181211G19CHZ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券