机器学习实战：Apriori算法

文章来源：企鹅号 - 机器辨识与互动研究组

直接Hello，大家好！我是MPIG2018级研究生刁金辉。今天给大家带来的是Apriori算法相关内容的介绍。从数据海洋中，寻找物品的不同组合是一项十分耗时的任务，所需的代价很高，蛮力搜索的方法并不能解决这个问题，所以需要用更智能的方法在合理的时间范围内找到频繁的项以及频繁项之间的关联，所以接下来带大家详细介绍Apriori算法。

首先我们看下本章主要内容：

1.Apriori算法的讲解

2. 使用Apriori算法来发现频繁项集

3. 从频繁项集中挖掘关联规则

4. Apriori挖掘关联规则算法的改进

一.Apriori算法的讲解

Apriori算法就是在海量的数据做关联分析，从而找到频繁项集和关联规则，

频繁项集：经常出现在一块物品的集合。

关联规则：暗示频繁项集物品之间可能存在很强的关联。

下面用一个例子来说明这两种概念：图中给出了购物清单。

频繁项集是指那些经常出现在一起的商品集合，图中的集合就是频繁项集的一个例子。从这个数据集中也可以找到诸如面包->牛奶的关联规则，即如果有人买了面包，那么他很可能也会买牛奶。

在购物清单的例子中，考虑规则→。由于项集的支持度计数为2，而事务的总数为5，所以规则的支持度为2/5=0.4。

规则的置信度是项集的支持度计数与项集支持度计数的商，由于存在3个事务同时包含牛奶和尿布，所以规则的置信度为2/3=0.67。

我们用支持度(support): 数据集中包含该项集的记录所占的比例，support(A,B)= （A,B)同时发生的个数/数据集的总个数

关联规则：暗示项集物品之间可能存在很强的关联，我们用可信度来表示

(confidence): 经常出现的项集中，物品之间的关系，形如A ==> B，confidence(A==>B) = support(A,B) / support(A)。

Apriori算法的过程：

(1) 收集数据

(2) 使用 Apriori 算法来找到频繁项集

(3) 用于发现频繁项集中物品之间的关联规则

二.使用Apriori算法来发现频繁集

定律1：如果某个项集是频繁项，那么它所有的子集也是频繁项

定律2：如果一个项集是非频繁项，那么他的所有超集也是非频繁项已知阴影

如图，若项集是非频繁的。利用这个定律，我们就知道项集，以及也是非频繁的。也就是说，一旦计算出了的支持度，知道它是非频繁的后，就可以紧接着排除、和。

使用Apriori算法来发现频繁项集的算法核心：

1 对给定的最小支持与数据集，从数据集中分离出为1项的最小候选集C1，剔除小于支持度的项集得到1项频繁集L1;

2 L1自身连接产生2项候选集C2，保留C2中满足约束条件的项集得到2项集L2；

3 L2自身连接产生2项候选集C3，保留C3中满足约束条件的项集得到2项集L3；

4 循环下去，得到最大频繁项集Lk；

机器学习实战：Apriori算法

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐