前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >A/B测试的边界与想象

A/B测试的边界与想象

作者头像
王晔
修改2017-06-19 18:58:28
1.1K0
修改2017-06-19 18:58:28
举报
文章被收录于专栏:王晔的专栏王晔的专栏

自然、人类、商业,似乎A/B测试无所不在。我们感叹大自然奇妙的同时,也被进化的奇妙所震撼。自有人类和商业以来,我们探索生产力和生产效率的脚步未曾停歇,而A/B测试也在此种施展着奇妙的魔法。

那么不禁会问,A/B测试的边界在哪里?

Part 1

加拉巴哥群岛上生活着各种雀鸟,喙的大小形状各异。在旱灾导致食物匮乏的年份,鸟喙上仅仅0.5毫米的长度差异就决定着雀鸟的生死。大喙的雀鸟磕开蒺藜的种子吃到食物,小喙的雀鸟则只能饿死,这便是自然选择。

[1495007053837_1080_1495007055811.png]
[1495007053837_1080_1495007055811.png]

大自然“设计出”喙大小不同的雀鸟(不同的版本),让它们为生存做斗争,同样的环境下,喙的大小成为决定雀鸟生死的关键因素,这便是物种进化中大自然所做的A/B测试。

“微小的差异决定了谁将生存,谁将毁灭”达尔文概括了A/B测试的精髓:细节的累积最终决定成败。

Part 2

1940年,一家美国公司推出了一种叫做“年轻人唱片俱乐部”的会员资格,他们在《纽约时报》进行推广,但一开始推广的效果并不好。这让另一家广告公司看到了机会,他们承诺能用科学的方法让推广效果提高15%~100%。

为了探索不同广告的效果,这家广告公司在当天报纸上使用了两套不同的广告文案。一半的报纸以“让孩子进入音乐殿堂”作为主题,另一半登着直接诉诸父母的“帮助你的孩子进入音乐殿堂”的主题文案。不同的广告文案上用不同的通信地址以及不同的热线电话来区分计算哪种文案更有吸引力。经过实验对比他们发现,后者的效果是前者的108%。

在另一个分刊广告中,他们试验了营销手法的改变:从之前的每年需买10张唱片一次付清货款,改为每月寄上唱片,每月结款,这一尝试把销量提升了23%。

之后,他们尝试把入会方式从至少需订购10张唱片,放宽为没有最低限制且可随时取消会员资格,愿意加入的消费者增加了158%。减少广告上儿童形象的插花而增加唱片封面影像,则可提高21%的订购率。

经过一年的努力,广告的整体效果提升了一倍。这是A/B测试在广告领域比较早期的尝试。

[1495007099985_9849_1495007101450.png]
[1495007099985_9849_1495007101450.png]

广告行业对A/B测试的探索从未停歇。50多年前,广告之父 David Ogilvy 就说过这么一句话: Never stop testing and your advertising will never stop improving !

Part 3

让“ Google 搜索体验”成为一种柏拉图式的理想:从来不会直接达到完美,只有通过不完美的推导和变化来实现。

2000年2月27日, Google 的工程师们进行了第一次A/B测试。他们那时候想知道搜索引擎结果里每页显示的条目数,是不是对用户体验最好。他们拿出搜索引擎流量的0.1%,每页提供20个结果;另一组0.1%25个,还有一组30个,对照组是默认提供的10条结果。试验结束后依然采用10条搜索结果。

由于技术故障,这不是一次成功的实验,但标志着A/B测试在互联网领域应用的正式兴起。此后, Google 把A/B测试用到了极致,到2011年,其搜索算法上运行了超过7000个A/B测试,通过A/B测试带来的优化每年为 Google 带来超过100亿美元的收入增长。

过去10年里,A/B测试的洪荒之力已经成为高风险 Web 开发行业的公开秘密,现在已经是整个硅谷改进其在线产品的标准方式。

Part 4

2007年11月,时任民主党总统候选人的巴拉克-奥巴马在山景城 Google 总部发言时说:“我是一个忠实的信徒,坚信理性、事实、证据、科学和反馈,所有这一切才能让你做到你要做的事,这就是我们政府应该做的。”当时的 Google 浏览器产品经理 Siroker 也在场。

之后, Siroker 离开 Google 作为数字顾问加入奥巴马竞选团队,为竞选团队引入一项关键技术——这项技术是 Google 依赖于开发和完善其产品的一种管理理念,这开启了A/B测试在政治领域的尝试。

Siroker 使用A/B测试重新思考竞选网站的基本元素。他们最大的挑战是将网站的访问者转化为订阅者,并对所有的邮件地址进行评分,以便鼓励最终将活动邮件转化为捐赠。访问从一个背景为奥巴马的发光的绿松石照片和明亮的红色“注册”按钮的启动页开始,但是点击按钮的人太少了。在 Siroker 的领导下,团队用新的精度来解决问题。他们把页面分为不同的组成部分,并为它们准备不同的替代选择。对按钮用3个新单词进行了A/B测试,“了解更多”、“立即加入我们”和“立即注册”,结果显示“了解更多”按钮每个访客的注册次数比默认值“注册”多18.6%。同样,奥巴马家族的一张黑白照片比默认的绿松石照片好13.1%,同时使用家庭形象和“了解更多”,注册惊人的增加了40%。

最令奥巴马团队震撼的是测试给直觉所带来的颠覆。工作人员几乎一致地以为奥巴马在一次集会上的演讲视频会胜过任何照片,但实际上,这个视频甚至比绿松石照片还差了30.3%。如果团队倾听了直觉,继续把“注册”作为按钮文本,把照片替换为视频,注册率将滑落到基准的70%。(“假设往往是错的”, Siroker 简短地说。)没有严格的数据收集和A/B测试的控制,团队甚至可能不知道为什么他们的数字已经下降,并在对候选人的热情下降和劣质网站带来的下降之间混淆不清。相反,当比率上升到基准的140%的时候,团队知道应该归功于那些事,那些人。

到竞选结束时,收集到的1300万个邮件地址里大约有400万个邮件地址,以及大约7500万美元的筹集资金由 Siroker 的仔细试验产生。

竞选结束后, Siroker 功成身退。但他也被A/B测试产生的惊人结果震撼到了,于是他和另一位 Google 员工创办了 Optimizely ,把A/B测试的方法推给企业群体。

Part 5

同样是一位 Google 员工,在亲身见证了A/B测试的神奇魔法之后,决定把这种科学的方法论和工具带回中国,推给更多的国内企业,于是有了吆喝科技。

两年,服务数百家企业,从网站到 App ,横跨在线教育、金融证券、直播、电商、企业服务等多个行业,转化率的提升,用户体验的优化,决策风险的降低,营收的增长,A/B测试与这些行业结合的意义可能远不止于此。或许还是科学决策与实验的文化,企业决策大脑的锤炼。

结语

Ian Tattersall 和 Jeffrey Schwartz 在他们合著的《灭绝的人类》一书这样写道:

在每一代中,越来越多的个体都能够活到成年并繁殖自己。那些成功的(“最适合的”)个体所携带的可遗传特征不仅提高了它们自身的生存能力,而且会优先遗传给后代。这样看来,自然选择只是将能够促进一些个体成功繁殖的所有因素(以及其他个体中缺乏的因素)汇总在一起的过程。再加上时间因素的作用,几代之后自然选择将改变每个进化世系的局面,因为有利变种会成为群体中的主体,而那些不太有利的变种则会被淘汰。

同样,在对产品的持续A/B测试中,那些最成功的元素得到筛选,沉淀,在产品迭代中汇总在一起,时间的推力,会让这种细节的累积最终迸发出真正的价值。

那么,A/B测试有边界吗?如果有,那它的边界会在哪?或许A/B测试会有边界,但想象无界。在想象力的驾驭下,A/B测试会有无限的场景与应用可能。

参考文献:

《直打正着》莱斯特·伟门

《证析-大数据与基于证据的决策》郑毅

《灭绝的人类》塔特萨尔与施瓦兹

本文系转载,如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载,如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Part 1
  • Part 2
  • Part 3
  • Part 4
  • Part 5
  • 结语
  • 参考文献:
相关产品与服务
云直播
云直播(Cloud Streaming Services,CSS)为您提供极速、稳定、专业的云端直播处理服务,根据业务的不同直播场景需求,云直播提供了标准直播、快直播、云导播台三种服务,分别针对大规模实时观看、超低延时直播、便捷云端导播的场景,配合腾讯云视立方·直播 SDK,为您提供一站式的音视频直播解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档