数据挖掘三个小故事

信息化的浪潮给全世界带来的翻天覆地的变化。当你使用信用卡刷卡消费的时候,刷卡交易的信息和购物情况已经进入了银行和商场的数据库;当你拿起手机拨打电话的时候,话单的信息已经进入了电信运营商的数据库;当你在医院挂号就医的时候,门诊和处方的信息已经进入了医院的数据库;当你使用公交卡乘车的时候,购买车票的信息也已经进入了公交公司的数据库。各种的情况都在表明,信息无处不在,而且每时每刻都有大量新的信息在产生,如同上下班高峰期的人流,拥挤而又嘈杂。

故事一、啤酒与尿布

世界零售连锁企业巨头沃尔玛拥有世界上最大的数据仓库系统之一,里面存放了各个门店的详细交易信息。为了能够准确了解顾客的购买习惯,沃尔玛利对顾客的购物行为进行了购物篮分析,想知道顾客经常一起购买的商品有哪些,结果他们有了意外的发现:“跟尿布一起购买最多的商品竟是啤酒!”

这是数据挖掘技术对历史数据进行分析的结果,它符合现实情况吗?是否是一个有用的知识?是否有利用价值?

于是,沃尔玛派出市场调查人员和分析师对这一挖掘结果进行调查分析。经过大量实际调查和分析,揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式:一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。

既然尿布与啤酒一起被购买的机会很多,于是沃尔玛就将尿布与啤酒并排摆放在一起,结果是尿布与啤酒的销售量双双增长。

按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。

故事二、犯罪的根源

格洛斯特郡是英格兰西部的一个郡,大约有五十多万人口。在有一段时间内,发生了多起抢劫案,民众不再感觉到安全,对郡警察局的舆论压力也陡然增加了,强烈要求及时破获这些案件,并避免案件的进一步发生。警方一方面在加快破案的同时,也在努力思考怎么样才可以降低发案率。

按照传统的做法,一般会采取这样的措施:锁定抢劫案的多发地区,加派警力进行巡逻,对行为异常的人员加强盘查等等。然而,格洛斯特郡警察局发现,这些措施的收效甚微,发案率依然居高不下,因为抢劫案的发案地点并不集中,分散在多个不同的街区,这让巡逻警力的安排显得捉襟见肘,难以全面顾及。

此时,来自警察局内部的分析系统却有了新的发现。系统中保存了多年的案件和案犯的卷宗信息,通过利用数据挖掘等分析技术,揭示出最近这段时间的抢劫犯具有一些非常显著的特征:他们大多是没有固定住所,无家可归,而且也没有稳定的工作。另外,在很多抢劫案发生前,这些罪犯都吸食了毒品。正是在毒品的刺激作用下,他们失去了自控能力,临时见财起意,对单身女性或情侣实施抢劫。

新的发现给警察局带来了新的思路,警方当机立断,对原来的增加警力加强巡逻的做法进行了调整,改为采取如下措施:一是加强对无业人员和有吸毒前科人员的管理,并通过社会福利机构对他们实施救助;然后,加强了对毒品交易易发场所的严打和治理,从源头上掐断毒品的供应。

治理得到了良好的效果,抢劫案的发案率迅速降低,格洛斯特郡的人们又重新恢复了平静的生活。

故事三、电邮加新闻

Yahoo是第一家招募了首席数据官的公司,以验证对公司而言,数据的确是一笔真实而有战略意义的财富。目标是通过提供以客户为中心的数据平台和洞察力服务,激励用户积极参与,对营销方案进行创新,从而为消费者和卖家带来价值。Usama Fayyad博士是Yahoo的首席数据官,他在和KDnuggets的Gregory的访谈中介绍了一些Yahoo在数据挖掘方面的成功案例。

“产品整合:一个例子就是你今天在Yahoo电子邮箱上看到的,数据挖掘的可视结果。通过对用户使用行为的意外模式分析,我们发现在每次会话中,人们阅读邮件和阅读新闻的行为之间存在很强的相关关系。我们把这个发现传达给Yahoo电子邮箱产品小组,他们首先想到的就是验证这种关系的影响:在一组测试用户的邮箱首页上显示一个新闻模块,其中的新闻标题被醒目显示。”

“对于象电子邮箱这种产品,最头痛的问题就是如何获取新的‘轻量级用户’,并推动他们的用量,使之变成‘重量级用户’。如果你做到了,那么流失率就会显著下降。实际上,在我们的试验中,最显著的一组流失率下降了40%。于是Yahoo立刻开发并完善了新闻模块,并嵌入Yahoo电子邮箱的首页,到现在,上亿的消费者都可以看到并使用这种产品。我喜欢提及这个故事,因为它很好地说明了我们产品团队的及时反应能力,也证明了在用户使用行为数据中蕴含着很多很多极具价值的潜在模式。”

“即时通信:我们对雅虎通(Instant Messenger)的使用情况进行了分析,以了解激励用量的关键因素是什么。结果发现,最重要的因素是让用户扩大他们的‘好友列表’,至少增加5个新的好友。据此Yahoo精心设计了相应的营销活动,鼓励用户增加好友列表中的好友数,从而显著激励了雅虎通的用量。”

“Yahoo首页的搜索框:一个简单的例子就是我们发现,在Yahoo的首页上,把搜索框放在居中的位置(而不是以前的左侧)将提高用户的用量。这样一方面可以促进用户的积极使用,对Yahoo来说也没有成本支出。这个结果的发现过程也很有趣,我们首先发现Netscape浏览器的用户比IE的用户更多地使用了搜索功能,进一步探查发现两个浏览器在视觉上的唯一区别就是:二者中的搜索框位置不同!搜索框在Netscape浏览器中是居中放置,而在IE中则是靠近左侧。很不明显的差别,但却很重要。一般谁会想到呢?”

原文发布于微信公众号 - 智能算法(AI_Algorithm)

原文发表时间:2016-05-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【实战案例】如何利用大数据思维在北京租到好房子?

PPV课大数据 第一步:精准定位。 确定找房地点,精确到小区。每个小区在任意时间,至少有三五间空房待租。大的小区,有几十间。完全不要担心没房。如果没有,基本是因...

29330
来自专栏数据的力量

为什么反派总是死于话多?

你一定会对这样的场景十分熟悉:在电影或者电视剧的高潮部分,最终大BOSS手拿武器对准躺在地上满身是血的主角。他/她/它,(当然)并没有立即终结主角,而是(如你所...

9930
来自专栏ThoughtWorks

TW洞见 | 张逸:今天你写了自动化测试吗

一艘货轮满载着货物从港口启航,向浩瀚的大海深处破水而去。海面平静,微微皱起波浪,从容而显得宽容。然而,货轮的步履却有些蹒跚,发动机“轰轰轰”地嘶吼着,不堪重负,...

370110
来自专栏花叔的专栏

我们不缺技术,我们缺技术的公益心

话说,大家都在讨论去电影院看“变形金刚5”,为了显得脱(zhuang)俗(bi),花叔就没第一时间去看这片子,而是去看了另一部按真实事件改编的寻亲剧情片:《li...

46980
来自专栏大数据文摘

全球10大新兴MOOC平台盘点(在线教育)

24780
来自专栏VRPinea

骚年你丹田饱满,一看就是万中无一玩VR声控游戏的好苗子!

32260
来自专栏量子位

用AI把自己变成小电影的男主,你愿意么?

而现在,成人影片公司Naughty America,推出了一项基于Deepfakes的新服务:

1.1K50
来自专栏大数据文摘

[译]恢复生态环境,大数据能做什么?

21270
来自专栏腾讯数据中心

积水成渊——数据中心用水效率分析

引言 现在人们一提起数据中心,首先想到的关键词是PUE(数据中心电力使用效率的衡量指标),由此可见人们对数据中心电力资源的重视程度。而另外一种资源——水,却往往...

39730
来自专栏编程微刊

一个前端妹子的悲欢编程之路

20040

扫码关注云+社区

领取腾讯云代金券