【案例】电商数据挖掘:牛奶搭配销售关联算法

在数据挖掘过程中,由于数据存在分散性和偶然性,因而在底层的数据关联上很难准确挖掘出强关联规则,进而也很难为我们决策提供参考。通常的解决的方案通常是引入概念层次,在较高的层次上,我们就可以通过“支持度和置信度”的框架来挖掘多层关联规则。 从一家公司的销售记录中我们找到以下8条消费记录,并以3作为最小支持度,也就是说出现频率在3次以下的记录是被我们所忽略的。

所有满足最小支持度3的1项频集如下,其中的支持度是指该产品在整个数据集中出现的次数。比如牛奶出现了5次,而冰淇淋出现了3次。

递归执行,所有满足最小支持度3的2项频集如下,这其中出现最多的频集是{牛奶,面包}和{面包,果酱},各自出现了4次。

再次递归执行,所有满足最小支持度3的3项频集只剩下一条:

那么{牛奶,果酱,面包}就是我们要的满足最小支持度3的3项频集,也就是说牛奶、果酱和面包这三个商品是最经常被一起购买的。 概念层次的数据挖掘 在研究挖掘关联规则的过程中,许多学者发现在实际应用中,对于很多应用来说,由于数据分布的分散性,数据比较少,所以很难在数据最细节的层次上发现一些强关联规则。要想在原始的概念层次上发现强的(strong)和有意义的(interesting)关联规则是比较困难的,因为好多项集往往没有足够的支持数。 当我们引入概念层次后,就可以在较高的层次上进行挖掘。虽然较高层次上得出的规则可能是更普通的信息,但是对于一个用户来说是普通的信息,对于另一个用户却未必如此。所以数据挖掘应该提供这样一种在多个层次上进行挖掘的功能。

概念层次在要挖掘的数据库中经常是存在的,比如在一个超市中会存在这样的概念层次:蒙牛牌牛奶是牛奶,伊利牌牛奶是牛奶,王子牌饼干是饼干,康师傅牌饼干是饼干等。 如果我们只是在数据基本层发掘关系,{蒙牛牌牛奶,王子牌饼干},{蒙牛牌牛奶,康师傅牌饼干},{伊利牌牛奶,王子牌饼干},{伊利牌牛奶,康师傅牌饼干}都不符合最小支持度。不过如果我们上升一个层级,会发现{牛奶,饼干} 的关联规则是有一定支持度的。 我们称高层次的项是低层次项的父亲层次(parent),这种概念层次关系通常用一个DAG(directed acyclic graph,有向无环图)来表示。所谓有向无环图是指,任意一条边有方向,且不存在环路的图。这样我们就可以在较高的概念层次上发现关联规则。 支持度的设置策略 根据规则中涉及的层次和多层关联的规则,我们可以把关联规则分为同层关联规则和层间关联规则。多层关联规则的挖掘基本上可以沿用“支持度—置信度”的框架。不过,在支持度设置的问题上有一些要考虑的东西。 同层关联规则可以采用两种支持度策略: 统一的最小支持度。对于不同的层次,都使用同一个最小支持度。这样对于用户和算法实现来说都比较容易,但是弊端也是显而易见的。 递减的最小支持度。每个层次都有不同的最小支持度,较低层次的最小支持度相对较小。同时还可以利用上层挖掘得到的信息进行一些过滤的工作。层间关联规则考虑最小支持度的时候,应该根据较低层次的最小支持度来定。 以上我们讨论的基本上都是同一个字段的值之间的关系,比如用户购买的物品。换句话说就是在单维或者叫维内的关联规则,这些规则很多都是在交易数据库中挖掘的。 但是对于实际应用来说,多维的关联规则可能是更加有价值的。 同时,在挖掘维间关联规则和混合维关联规则的时候,还要考虑不同的字段种类,是分类型数据还是数值型数据等等。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2014-07-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

不可不知 | 有关文本挖掘的14个概念

版权声明 作者:杜尔森·德伦(Dursun Delen) 来源:《大数据掘金 挖掘商业世界中的数据价值》,中国人民大学出版社出版 本文由数据之王(ID:shuj...

3338
来自专栏新智元

大脑确实像计算机一样思考,类脑计算完全有望实现人类智能

【新智元导读】大多数神经学家认为,大脑通过改变脑细胞或神经元之间的连接及其强度学习。但有实验结果表明,大脑的学习方式更类似计算机:将信息编码到神经元内的分子中,...

2637
来自专栏Albert陈凯

Spark系列课程-0030Spark 简单的算子

我们这节课开始讲Spark的算子, 我们说transformation类算子是转换算子 我们称Action类算子是行动算子 ? image.png 我们回顾...

3327
来自专栏程序员互动联盟

【专业技术】图像格式转化规律探秘

存在问题: 搞视频编解码的童鞋对此深刻理解,但是好多小伙伴在andriod或其他嵌入上做启动动画时候图像是如何转化存在一定的疑惑。 解决方案: 针对这些问题我们...

3296
来自专栏智能算法

数据分析小实验(上)

目录 一、数据准备 二、缺失值处理 三、清洗数据 四、聚类分析 五、结果评估与分析 一、数据准备 本次实验,是通过实验方...

3778
来自专栏ATYUN订阅号

赫尔辛基大学AI基础教程:搜索和解决问题(2.1节)

想象一下你在一个外国的城市,在某个地方(比如一家酒店),想用公共交通工具去另一个地方(比如一家不错的餐馆)。你是做什么?如果你会像许多人一样,掏出智能手机,输入...

1176
来自专栏深度学习之tensorflow实战篇

算法岗位做数据挖掘大多都是抽特征跑跑现成模型”

这句话,说起来很简单,看起来也很容易,但真的是这样吗? 我列举几点,扩展一下上面这句话: 1、label符合业务场景吗?label准确吗?能够校准吗?放在哪张表...

3119
来自专栏生信技能树

用R语言做逻辑回归

用R语言做逻辑回归 jmzeng(jmzeng1314@163.com) 回归的本质是建立一个模型用来预测,而逻辑回归的独特性在于,预测的结果是只能有两种,tr...

36110
来自专栏张俊红

python数据科学-单变量数据分析

总第85篇 01|背景: 我们在做机器学习之前,需要自己先对数据进行深入的了解(这些数据是什么类型,总共有多少数据,有没有缺失值,均值是多少之类的),只有自己对...

2925
来自专栏数说工作室

特征选择怎么选? | 讨论

想构建一个模型,几十万行数据、400多变量,怎么选? (1)全部塞进去 模型运行慢,一不小心跑一个月能受得了?更关键塞进了那么多无效变量,效果肯定也不好啊。...

3466

扫描关注云+社区