前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Booking.com的A/B测试实践

Booking.com的A/B测试实践

作者头像
大数据文摘
发布2018-05-22 17:47:31
7210
发布2018-05-22 17:47:31
举报
文章被收录于专栏:大数据文摘大数据文摘

作者: João Miranda 翻译:邵思华 摘自:InfoQ

我们希望通过客户的观点来驱动我们的产品开发,而经过实验证明的各种假设则是探索客户观点的最佳手段。目前,在阿姆斯特丹举办的OSCON大会上,来自于booking.com的首席设计师Stuart Frisby为与会者讲述了他们如何在产品开发中大量应用A/B测试实践的情况。

A/B测试是一种通过比较某个指定特性不同版本的差异,以理解哪一个版本的效果更好的一种行为。但要正确地实践A/B测试,需要满足一些前提条件。

每个特性都需要进行完整的测试,但这种测试必须是原子性的。如果你不能做到每次测试只针对一项变更,你就无法控制变化因素,从而不可能得到清晰无误的结果。虽然目前市面上已经出现了许多A/B测试工具,但Frisby认为这些工具都不够理想,因为他们都缺少进行恰当的、完整的测试所必需的上下文与灵活性。他建议你创建一套属于自己的工具,或者至少也要使用某种能够允许你修正并匹配你的上下文的工具。

应用这一实践的软件组织必须建立一种数据驱动产品开发的文化,而不是依赖于专家的意见。所招聘的员工应具备企业家的心态,这样就能够促成一种“刨根问底”的组织文化,从而促使每个人对于他所不了解的内容提出疑问。作为一种终极的促进因素,优秀的A/B测试实践在许多情况下会证明,在当前上下文中,你、你的老板或业界专家的想法其实是错误的。

Frisby描述了一个假想的A/B测试场景,以了解改变背景颜色所产生的效果。在实践中,Frisby并不推荐这种类型的A/B测试,他相信改变颜色不是一种解决用户问题的正确方式。但这一场景能够简单地表现出整个流程,这个实验的假设场景是这样的:

由于在网站中使用了一些较高对比度的元素,使得我们的业务中一个主要的行为功能(即“立即预定”按钮)显得不够突出。

用于对此次实验的结果进行分析的衡量标准:

如果有更多的用户选择单击某个对比度较高的按钮,并最终下了订单,我们就知道这个假设是正确的。

团队将发布该按钮的两个版本:一个是正在使用中的蓝色背景按钮,一个是全新的绿色背景按钮:

让我们假定绿色的按钮会使预定转化率从2.7%下降至2.2%,那么这个假设就是不成立的,因此booking.com将继续延用原来的按钮样式。

在开展A/B测试的过程中,软件组织必须注意一些常见的错误。首先,不要尝试“大范围的A/B测试”,即一次性改动过多的内容。也不要尝试“边缘A/B测试”,即仅仅专注于产品中某个很小的部分,即便它非常重要,例如你的登陆页面。此外,Frisby还简略地描述了“假定可再现性”这一思想。

“假定可再现性”这一思想是指由他人所进行的实验也能够在你自己的环境中再现。但上下文始终是最关键的因素,对于其他人有效的做法未必就适合你。Frisby提出了一种层次型的可信赖数据源(按可信赖度从高到低排列):你自己的实验数据;你个人的观点,因为你最了解你自己的产品;他人的观点;他人的实验数据,因为它会为你造成一种假象,让你错误地确信它的结果。

Frisby并不建议在所有场景中都应用A/B测试,如果你的web应用程序没有达到一定的访问量,那么测试的结果可能也是无意义的。此外,如果你没有定义客观的衡量指标,并通过这些指标根据你的测试结果进行决策,那么也不应当采用A/B测试。最后,软件组织必须要做好准备,因为A/B测试的结果很可能会与组织所确信的恰恰相反,而接受这一点并不像人们想象中那么容易。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-11-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档