购物篮分析:绝不只是“啤酒与尿布”!

之前的两篇实用性文章《网购评论是真是假?文本挖掘告诉你》和《大数据助力东北小吃铺满血复活》发表之后,许多读者表示对其中的“购物篮分析”很感兴趣,希望我们能多做介绍。好吧,既然大家都这么有兴致,我就打开了亚马逊的页面,想找几本书推荐一下……

然后我发现,亚马逊的购书页面本身,正是购物篮分析的绝佳案例呀。

亚马逊将读者购买的所有书籍视作一个购物篮,分析篮子中某几本书同时出现的概率,比如买了《数据挖掘》之后再购买《R语言编程艺术》的条件概率和置信度等,然后据此向你推荐其他书籍,希望达到交叉销售的目的:

你一定由此立刻想到了诸多电商、视频网站的推荐链接,甚至搜索引擎展示的广告。其实购物篮分析的用途远远不止网络营销,它出现在我们生活的方方面面。你肯定听说过著名的“啤酒与尿布”吧——“购物篮分析”正是得名于一个相关的经典实例:超市对顾客的购买记录数据库进行关联规则挖掘,可以发现顾客的购买习惯,例如,购买产品X的同时也购买产品Y,于是,超市就可以调整货架的布局,比如将产品X和产品Y放在一起,以图增进销量。

关联规则挖掘中的关键概念包括

  • 支持度——X与Y同时被购买的概率;
  • 置信度——购买X后再购买Y的条件概率;
  • 提升度——先购买X对购买Y的概率的提升作用。

它们是鉴定关联规则的强弱指标,其中,支持度与置信度的高低可能有各种组合,也可以应用在各个领域。

当然,在实际工作中如要处理较为复杂的问题,关联规则挖掘往往要与其他方法或模型结合,才能达到更好的效果。在银行业或保险业的交叉销售工作中,关联规则几乎总是与客户分群相辅相成,毕竟,客户之间可能差别甚大,他们的购物篮里有什么,自然也千差万别;先对客户进行分群,再根据不同群组分别使用不同的关联规则进行营销,成功率会提升许多。

比如,我们现在面对着两位客户:王先生的年纪是45岁,家里有一位太太、两个女儿和三只猫,财务状况良好;李小姐27岁,单身租房独居,财务状况也良好。两位财务状况良好的人可能都在银行开了储蓄账户和信用卡账户,但接下来要做的事情恐怕不大可能一样,自然也不能向他们推销同一种产品。

应该做的,是进一步发现他们所在的客户分群,比如“家庭顶梁柱”或“单身女性精英”,然后进行更有效的交叉销售。王先生可能偏好家庭相关的保险产品,而李小姐也许更想开个贷账户,也可能是某些我们意想不到的产品。

在应用模型之前,客户经理们往往根据自己的业务直觉做出判断、进行营销,但有了各种模型之后,我们就可以以产品的关联规则为基础,再从客户群的角度分别分析其购买其他产品的可能性,从而对每一个客户都有对应的几种产品排序,而对在某产品中排名靠前的客户做营销。事实证明,这样的做法很有效用。比如,在某银行进行的项目中,对排名10%的客户进行营销,测试组比对照组对非寿险的营销响应率提升4倍,个贷则提升5倍。

测试组和对照组又是指什么呢?这就涉及到如何证明我们的模型和分析有效的问题。业绩的提升究竟是营销做得好、还是模型起作用?为了分清这一点,试点阶段中条件允许的话,最好分出测试组和对照组进行试验。测试组中,我们放入根据模型得到了前百分之若干的客户名单,而对照组则随机选取、或由客户经理根据营销经验选择。营销人员对于两组进行同等力度的营销,如果测试组的表现比对照组好,即可证明模型有效,这样的做法非常有说服力,人们忽视的真相战胜了本以为的“常识”。

购物篮分析的具体操作,则既可以用SAS Enterprise Miner实现,也可以使用R语言中的Apriori算法。

最后不妨再八卦两句“啤酒与尿布”的故事吧:一见到这几个字,我们马上就能脑补出一个骄傲的年轻父亲走进商场给孩子买尿布的场景。孩子出生前,他习惯周五晚上与哥们儿一起出去喝酒,现在可没机会了,但他还是惦记着过去的好时光,看见尿布边上的啤酒,忍不住买上一打回家畅饮,聊作安慰。

这个案例炒得轰轰烈烈,然而我至今似乎也没见过真的把啤酒和尿布摆在同一货架上的超市。事情的真相是,远在1992年,Teradata公司的一个团队针对某家连锁超市做了一次类似的购物数据分析,得出结论:下午5点至7点间,人们有同时购买啤酒和尿布的倾向。——没有提到性别、年纪或者日期,超市也压根没有利用这个结论,对货架进行任何调整。总之,啤酒与尿布与其说是个案例,不如说是个寓言童话。

然而,我们为何要在此提起这个已经屡遭夸大利用的故事呢?它当然不是毫无意义的。它的意义在于,此前从没有人想过啤酒和尿布之间能有什么关系,直到一次数据挖掘给你讲了个合情合理的故事。而关联规则挖掘、甚至所有数据挖掘工作正是如此:它是开放的,是没有偏见的,是你从来没想到的,但偏偏又切切实实地存在着。

这正是我们渴望完成的工作:从海量数据中寻找你意想不到的真相。

(作者:毕马威大数据挖掘,转载自公众号“ KPMG大数据挖掘”,转载请保留作者及公众号信息,谢谢。)

版权声明:转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

大数据

我们将为大家提供与大数据相关的最新技术和资讯。

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2016-03-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

全网首发 | 告别语言交流,欢迎来到意念传输的时代(下)

这几天,我们在以全网最完整的编译、全网最迅速的动作,为读者带来科技人气王Tim Urban的Neuralink长文。 第一篇我们仔细剖析了神经网络的进化史; ...

4416
来自专栏编程坑太多

想找女朋友,结果遭遇了酒托,且行且小心啊!

  2013年,同事阿润遭遇了一场浩劫,工资就是这么坑进去了。来来废话少说直接进入正题!在楼道口,『妈的心里真烦啊,被坑了580多,色字头上一把头啊!』阿润骂骂...

1441
来自专栏PPV课数据科学社区

比大数据本身更重要的是大数据的自动化分析和管理

如今所有人都在谈论大数据,但事实上,关于它很多的言论都太过夸张。就业数据显示,大数据似乎很为企业招聘者所需要。然而,更多的数据表明,企业并不知道要利用这些大数据...

3778
来自专栏玉树芝兰

你到底该信谁?

2016年,微信覆盖人口超过了8个亿,这意味着什么?意味着我们被刷屏的几率越来越高了。

861
来自专栏逍遥剑客的游戏开发

VRMMO的技术挑战

5749
来自专栏VRPinea

善忘星人福利贴:不再丢三落四,VR/AR助你做个精致的人儿

3654
来自专栏飞雪无情的博客

微信小游戏跳一跳为什么这么火?

某天晚上刚吃过饭。 正靠在沙发上刷手机。 突然微信上一个很久不活跃的同学群闪了一下。 什么情况? 难道是哪位同学荷尔蒙分泌过多, 要对当年暗恋的对象来一段深情告...

822
来自专栏大数据文摘

BBC最新纪录片数据之欢(上):美女数学家讲述数据的前世今生

1412
来自专栏mathor

“洛必达”or“伯努利”法则

2124
来自专栏区块链入门

半小时读懂互联网广告新生态

互联网广告产业链的概念普及,涉及广告网络(Ad Network),互联网广告交易平台(Ad Exchange),  实时竞价(RTB,Real Time Bid...

1986

扫码关注云+社区

领取腾讯云代金券