前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >警惕数据应用中的“幸存者偏差”| 分析师说

警惕数据应用中的“幸存者偏差”| 分析师说

作者头像
数说君
发布2018-04-08 11:53:35
1.2K0
发布2018-04-08 11:53:35
举报
文章被收录于专栏:数说工作室

最近一段时间,小D的内心几乎是崩溃的。小D在一家银行做数据应用,刚刚试点上线了一套精准交叉销售方案,看起来高大上,用起来却然并卵,成功率甚至比随机实验还低。

说起来,这套精准交叉销售方案,主要是基于关联规则分析算法。

关联规则分析要解决的主要问题是:一群用户购买了很多产品之后,哪些产品同时购买的几率比较高?买了A产品的同时买哪个产品的几率比较高?

由于最初关联分析在超市应用比较广泛,所以又叫“购物篮分析”,英文简称为MBA,此MBA非彼MBA,意为Market Basket Analysis。著名的“啤酒和尿布”的故事(真假暂且搁置),便是基于这一算法的典型应用,买了啤酒的顾客,40%都同时买了尿布,那就向这些买了啤酒的顾客定向促销尿布啊,譬如将两者放在同一张货架上,或者设计组合打折的策略等。

同理,银行的产品也差不多,如果签约了手机银行的客户,40%都同时签约了跨行通,那就向这些已经签约手机银行但未签约跨行通的存量客户,定向投放营销资源,听起来很合理。

实际上,购物篮分析用在零售银行的产品交叉销售中,有一点原生的瑕疵。因为超市的商品往往没有强捆绑关系,而银行的产品却关系复杂。例如只有签约网银的用户才能开通资金归集业务,只有签约了直销银行的客户才能购买其中的各种“宝宝”,如果把网银、资金归集、直销银行和“宝宝”们都视作一种产品,那么由此而训练得到的关联规则会包含大量的“假性关联”,即由人为制定的商业规则,而非用户自由选择形成的市场关联。

这一问题在应用中会带来相当大的干扰,但并非无药可解。只要分析师充分了解产品间的依存关系和业务特性,就可以先无差别的训练数据,在模型应用前再用人工筛除掉结果中的假性关联。所以小D遇到的关键问题并不在这里。

实际上,小D正是掉进了叫做“幸存者偏差”的陷阱里。

1943年,一位匈牙利裔犹太人亚伯拉罕·沃尔德(Abraham Wald)发表了一篇100多页的论文,主要讨论的一个问题是:

二战时,从战火中返航的飞机的伤痕呈现某种规律,有的部位中弹多,有的部位中弹少。为了提高飞机的防御力,直觉上似乎应该在弹孔密集处加强装甲,不过这位专家说:到底哪里最需要防护,直觉说了不算,我算给你看(此处略去1万字)。

根据沃尔德的算法,分析样本中弹孔最稀疏处,恰恰是要害处,因为没被击中要害的飞机才更有机会返航、进入统计样本。这就是“幸存者偏差”。

那么,这和小D在银行遇到的例子有什么关系么?

关系还不小。因为银行的客户经理们每天苦哈哈的围着各种考核指标转,你去银行开个户试试,各种产品对你狂轰烂炸一番(自行代入岳云鹏):

“小主,我们这儿保险可好卖啦,您瞧这收益率。” “小主,您签了网银自己就能在家里买啦。” “您看看这款施华洛世奇羊驼挂坠,多高大上,买一送一,我行独家,您别处还买不着呢。”

稍微给点面子的客户,哪个过节不是各种祝福炸弹。 “炮竹声声辞旧岁,欢度佳节福连天,在新的一年里,XX银行祝您万岁万岁万万岁,我行新开通了APPLE PAY业务,赶紧来绑定吧,详情戳链接…”

这么一番下来,突然有一个刺儿头,来了网点就装聋作哑,你说啥我也不办,我就爱拿麻袋装钱来存款,你们管得着么?这样一个客户,最后却变成了精准营销的对象,是不是贼荒谬啊。然而这正是小D在做的事情,对存量客户做产品推荐,如果基于关联规则、协同过滤、序列模式挖掘等仅依赖产品购买记录进行挖掘的算法,就很容易走入歧途,你所筛选出来的目标客户,不仅不是傻呵呵等着你去营销的漏网之鱼,而恰恰是各种营销轰炸过后的寥寥幸存者而已。

“幸存者偏差”是一种隐蔽性很强的认知陷阱,即便是经验丰富的数据专家也可能误堕其中。1936年,彼时美国以预测总统大选结果而闻名的《读者文摘》,却在当次大选预测中大错特错,在抽样调查中完胜的兰登,最后却败给了对手富兰克林。

事后分析,预测失败的原因是,《读者文摘》以回寄明细片的方式收集问卷,这一渠道显著放大了富人阶层在样本中的比例,富人成了幸存者,穷人则变成了“沉默的大多数”,而恰恰此次富兰克林的支持者主要是穷人阶层。由此可见,幸存者偏差是如此难以提放,而在统计实践中,这种陷阱还随处可见。

  • 股市能赚大钱:赔得倾家荡产的都跳楼去了,没空在朋友圈炫富;
  • 祖传老中医包治百病:没被治好的病人不会跑来跟你嘚瑟;
  • 中国的桥都是豆腐渣工程:没塌的桥谁会跑去报道;
  • 民科郭英森遭民众追捧:越偏激,越是哗众取宠的言论,就越能得到传播,因为反对者往往不屑于评论或撰文反驳,而支持者只需要一键转发;

回到小D的这个案例中,失败的原因找到了,那么如何去改进呢?

首先,仅基于购买记录的分析无法有力支持事后交叉销售,但其结论却并非一无是处。通过这类分析,可以帮助我们判别,哪些产品搭在一起卖更容易,从而在客户首次开户时,作为客户经理引导销售的参考,甚至可以将推广价值大的搭配作为规定动作。例如目前部分银行中,网银和手机银行的签约已经形成规定动作,只要客户提出一项需求,则必推荐另一项签约。

其次,如果要坚持做交叉销售的话,那么就要从客户的金融需求生命周期出发,寻找有价值的营销线索。比较典型的序列模式如,客户从学生信用卡切入,婚配期间引发房贷需求,婚后摇号中签创造车贷需求,子女入学入托引发消费贷需求等。

序列模式挖掘能够帮助我们初步定位潜在目标客户,但不能作为直接依据。营销动作的精准性取决于对稍纵即逝的客户动作的及时捕捉,例如大额理财到期、大额资金过户、特定消费场所、周期性转移资产等,通过捕捉这些动作,在潜在目标客户中建立事件触发机制,才能配合做到对精准程度的大幅度提升。

动作引擎的逐步完善需要对业务有全面的了解吧?没错,这听起来不容易,做起来更难。其实归根结底,数据应用的推广基础,正是建立在模型算法与业务经验的交集之上。从这一点上来说,简单套用算法就想囫囵吞枣的拿来应用,是小D同学所犯错误的根源吧。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-03-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数说工作室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档