A/B测试的边界与想象

自然、人类、商业,似乎A/B测试无所不在。我们感叹大自然奇妙的同时,也被进化的奇妙所震撼。自有人类和商业以来,我们探索生产力和生产效率的脚步未曾停歇,而A/B测试也在此种施展着奇妙的魔法。

那么不禁会问,A/B测试的边界在哪里?

Part 1

加拉巴哥群岛上生活着各种雀鸟,喙的大小形状各异。在旱灾导致食物匮乏的年份,鸟喙上仅仅0.5毫米的长度差异就决定着雀鸟的生死。大喙的雀鸟磕开蒺藜的种子吃到食物,小喙的雀鸟则只能饿死,这便是自然选择。

大自然“设计出”喙大小不同的雀鸟(不同的版本),让它们为生存做斗争,同样的环境下,喙的大小成为决定雀鸟生死的关键因素,这便是物种进化中大自然所做的A/B测试。

“微小的差异决定了谁将生存,谁将毁灭”达尔文概括了A/B测试的精髓:细节的累积最终决定成败。

Part 2

1940年,一家美国公司推出了一种叫做“年轻人唱片俱乐部”的会员资格,他们在《纽约时报》进行推广,但一开始推广的效果并不好。这让另一家广告公司看到了机会,他们承诺能用科学的方法让推广效果提高15%~100%。

为了探索不同广告的效果,这家广告公司在当天报纸上使用了两套不同的广告文案。一半的报纸以“让孩子进入音乐殿堂”作为主题,另一半登着直接诉诸父母的“帮助你的孩子进入音乐殿堂”的主题文案。不同的广告文案上用不同的通信地址以及不同的热线电话来区分计算哪种文案更有吸引力。经过实验对比他们发现,后者的效果是前者的108%。

在另一个分刊广告中,他们试验了营销手法的改变:从之前的每年需买10张唱片一次付清货款,改为每月寄上唱片,每月结款,这一尝试把销量提升了23%。

之后,他们尝试把入会方式从至少需订购10张唱片,放宽为没有最低限制且可随时取消会员资格,愿意加入的消费者增加了158%。减少广告上儿童形象的插花而增加唱片封面影像,则可提高21%的订购率。

经过一年的努力,广告的整体效果提升了一倍。这是A/B测试在广告领域比较早期的尝试。

广告行业对A/B测试的探索从未停歇。50多年前,广告之父 David Ogilvy 就说过这么一句话: Never stop testing and your advertising will never stop improving !

Part 3

让“ Google 搜索体验”成为一种柏拉图式的理想:从来不会直接达到完美,只有通过不完美的推导和变化来实现。

2000年2月27日, Google 的工程师们进行了第一次A/B测试。他们那时候想知道搜索引擎结果里每页显示的条目数,是不是对用户体验最好。他们拿出搜索引擎流量的0.1%,每页提供20个结果;另一组0.1%25个,还有一组30个,对照组是默认提供的10条结果。试验结束后依然采用10条搜索结果。

由于技术故障,这不是一次成功的实验,但标志着A/B测试在互联网领域应用的正式兴起。此后, Google 把A/B测试用到了极致,到2011年,其搜索算法上运行了超过7000个A/B测试,通过A/B测试带来的优化每年为 Google 带来超过100亿美元的收入增长。

过去10年里,A/B测试的洪荒之力已经成为高风险 Web 开发行业的公开秘密,现在已经是整个硅谷改进其在线产品的标准方式。

Part 4

2007年11月,时任民主党总统候选人的巴拉克-奥巴马在山景城 Google 总部发言时说:“我是一个忠实的信徒,坚信理性、事实、证据、科学和反馈,所有这一切才能让你做到你要做的事,这就是我们政府应该做的。”当时的 Google 浏览器产品经理 Siroker 也在场。

之后, Siroker 离开 Google 作为数字顾问加入奥巴马竞选团队,为竞选团队引入一项关键技术——这项技术是 Google 依赖于开发和完善其产品的一种管理理念,这开启了A/B测试在政治领域的尝试。

Siroker 使用A/B测试重新思考竞选网站的基本元素。他们最大的挑战是将网站的访问者转化为订阅者,并对所有的邮件地址进行评分,以便鼓励最终将活动邮件转化为捐赠。访问从一个背景为奥巴马的发光的绿松石照片和明亮的红色“注册”按钮的启动页开始,但是点击按钮的人太少了。在 Siroker 的领导下,团队用新的精度来解决问题。他们把页面分为不同的组成部分,并为它们准备不同的替代选择。对按钮用3个新单词进行了A/B测试,“了解更多”、“立即加入我们”和“立即注册”,结果显示“了解更多”按钮每个访客的注册次数比默认值“注册”多18.6%。同样,奥巴马家族的一张黑白照片比默认的绿松石照片好13.1%,同时使用家庭形象和“了解更多”,注册惊人的增加了40%。

最令奥巴马团队震撼的是测试给直觉所带来的颠覆。工作人员几乎一致地以为奥巴马在一次集会上的演讲视频会胜过任何照片,但实际上,这个视频甚至比绿松石照片还差了30.3%。如果团队倾听了直觉,继续把“注册”作为按钮文本,把照片替换为视频,注册率将滑落到基准的70%。(“假设往往是错的”, Siroker 简短地说。)没有严格的数据收集和A/B测试的控制,团队甚至可能不知道为什么他们的数字已经下降,并在对候选人的热情下降和劣质网站带来的下降之间混淆不清。相反,当比率上升到基准的140%的时候,团队知道应该归功于那些事,那些人。

到竞选结束时,收集到的1300万个邮件地址里大约有400万个邮件地址,以及大约7500万美元的筹集资金由 Siroker 的仔细试验产生。

竞选结束后, Siroker 功成身退。但他也被A/B测试产生的惊人结果震撼到了,于是他和另一位 Google 员工创办了 Optimizely ,把A/B测试的方法推给企业群体。

Part 5

同样是一位 Google 员工,在亲身见证了A/B测试的神奇魔法之后,决定把这种科学的方法论和工具带回中国,推给更多的国内企业,于是有了吆喝科技。

两年,服务数百家企业,从网站到 App ,横跨在线教育、金融证券、直播、电商、企业服务等多个行业,转化率的提升,用户体验的优化,决策风险的降低,营收的增长,A/B测试与这些行业结合的意义可能远不止于此。或许还是科学决策与实验的文化,企业决策大脑的锤炼。

结语

Ian Tattersall 和 Jeffrey Schwartz 在他们合著的《灭绝的人类》一书这样写道:

在每一代中,越来越多的个体都能够活到成年并繁殖自己。那些成功的(“最适合的”)个体所携带的可遗传特征不仅提高了它们自身的生存能力,而且会优先遗传给后代。这样看来,自然选择只是将能够促进一些个体成功繁殖的所有因素(以及其他个体中缺乏的因素)汇总在一起的过程。再加上时间因素的作用,几代之后自然选择将改变每个进化世系的局面,因为有利变种会成为群体中的主体,而那些不太有利的变种则会被淘汰。

同样,在对产品的持续A/B测试中,那些最成功的元素得到筛选,沉淀,在产品迭代中汇总在一起,时间的推力,会让这种细节的累积最终迸发出真正的价值。

那么,A/B测试有边界吗?如果有,那它的边界会在哪?或许A/B测试会有边界,但想象无界。在想象力的驾驭下,A/B测试会有无限的场景与应用可能。

参考文献:

《直打正着》莱斯特·伟门

《证析-大数据与基于证据的决策》郑毅

《灭绝的人类》塔特萨尔与施瓦兹

原文链接:

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

李嘉诚首投AI芯片:华人创办公司Kneron耐能,已发3款NPU

942
来自专栏大数据文摘

Nature:2014年度十大科学人物

1295
来自专栏养码场

一周播报 | 1比18,阿里测试太牛逼or开发太弱?

一位刚从阿里离职的P8说阿里一个测试对应18个开发,不知这种说法是否正确?是阿里开发比较弱还是测试比较牛逼,有人出来解答一下吗?

551
来自专栏机器人网

《科学》杂志评出2014年十大科学人物:机器人专家占两席

12月18日出版的《自然》杂志评选出2014年度十大科学人物。这十大人物是本年度一些重要科学进展及事件的中心人物。其中与机器人有关的主要有罗塞塔号彗星探测器飞行...

2665
来自专栏企鹅号快讯

济西站构建大数据运营网络,打造智能化列车加工厂

济西站瞄准职工对美好生活的需求,携手创建和谐共生、清洁美丽、文明向上的职场环境。 站区生活一体化 济西站秉承站区一家人、运输一盘棋、管理一体化的思想,将互联网+...

2267
来自专栏顾宇的研习笔记

断舍离,实际上是在学习如何挽留

母亲喜欢买东西,家里之前会囤积各种各样的食物。到后来,都会坏掉。父亲因此经常责备她。

1065
来自专栏知晓程序

讲真,花点小钱,你就能和女神深聊 48 小时

912
来自专栏VRPinea

夏日福利|一大波穿着清凉的VR小姐姐在向你招手

3445
来自专栏钱塘大数据

清华才女飙泪谈人工智能:这才是我最大的担心!

随着AI时代的到来,“人工智能” “物联网”“云计算”这些看起来高度技术化的名词,正在走入“平常百姓家”。科技驱动未来,也许有不少人的想法,正如《南风窗》写的那...

3376
来自专栏人工智能快报

美空军测试神经形态计算芯片的军事应用价值

据麻省理工《技术评论》报道,美国空军研究实验室利用雷达生成的航空影像对IBM在2014年研制出的神经形态芯片“真北”进行了测试,发现其对航空影像中军用车辆与民用...

33410

扫码关注云+社区