大数据变现十日谈之七：AB测试

刀刀老高

发布于 2018-04-11 10:27:02

9000

发布于 2018-04-11 10:27:02

文章被收录于专栏：奇点大数据

AB测试在很多互联网产品中都很常用，甚至有很多老牌的软件企业也从这种方式中汲取经验。

AB测试指的是什么呢？

在我看来，AB测试是一种评价体系的核心思想。大致的工作流程如下，当我不知道一种产品的A方案好还是B方案好的时候，或者两种设计完全不同的产品A和B的市场反应如何的时候，我会考虑找两组用户来进行测试。

比如设置两个对比组，A组100人，B组100人，给A组人产品的A方案，给B组人产品的B方案，然后观测各种反应指标。最后得出一种相对客观的比对结论。这就是AB测试的整体思路。

AB测试虽然对于互联网产品是一种舶来品——在很多传统行业里早就已经开始使用了，而且近几年也逐渐应用更为广泛。

传统行业里有哪些地方用了AB测试吗？有的。

比如药品的临床测试，有很多新药，要测试其是否真的有效，或者其药效是否比其他药效要好，通常采用的叫做“随机对照试验”（Randomized Controlled Trial，简称RCT）。也就是将病患分为两组，然后一组给药一组不给；如果是对比两种药物的话，那就是一组给待测药一组给另一种对比药物，在疗程结束后对比治愈率。为了避免人为情绪化因素以及个别样例的特殊反应对测试结果的影响，又进化出一种叫做“大样本随机双盲试验”的办法，算是对“随机对照试验”的进一步科学化的诠释。

两者的不同点在于：

第一：大样本，样本量加大稀释个别样例特殊反应对统计结果的影响；

第二：双盲，就是让病患和医生都对药品和分发对象事先不知晓，让所有人都在这个被他人安排好的测试旅程中一步一步进行试验，直到最后再去对比测试的结果。这样就避免了在人与人接触的过程中由于主观情绪掺杂在交谈里引起的一些难以把握的因素。比如，医生如果主观上对这种药不看好，或者主观上认为这种药效果不错，在交谈的过程中或多或少会有情绪上对病患的暗示，那这种暗示对于治疗配合程度的影响会干扰测试结果。治疗结果好或不好，我们就说不清究竟是药品真的很管用，还是其中有更多“安慰剂”的成分。

除此之外，我们国内在推行一些制度或者管理办法的时候也都有“试点企业”、“经济特区”的一些局部区别性的制度不同，目的就是为了看这种AB测试的对比效果，效果好了就推广，效果不好就停掉再试别的方法。

1、网页测试

在互联网产品的开发过程中，AB测试的使用也是非常广泛的，尤其是在我们拿不准究竟亿万群众的口味如何的时候。

在一个网页（界面）上线的时候，我们用再好的经验也没办法判断究竟这一次发布结果如何，在有两个以上选择的时候我们也会面临这种问题。那就不如都交给市场，让市场的反应说了算。

比如你要做个网站（网页），你不确定用户对哪一个更喜欢，那就试试看在试运营或者公测的时候让进来访问的用户被随机分配到一种方案上，如果有两种备选方案，那就是A方案和B方案。让他从头到尾都使用这一种方案风格对网站（网页）进行访问。记得把他访问的路径记录下来。某一个人个案性的访问路径，访问时间，点击数可能不能说明什么，这个事情得看宏观统计。在测试一个网站的过程中你要至少选择数百人进行随机分派，有条件的话也可以更多一些。

不过为了保证你的测试不是由于提供的内容原因导致用户的好恶不同而只是由于表现形式的，那就要保证对AB两组人只提供外形（样式）差异的网站。因为除了网站外形的不同以外，网站提供的内容，访问产生的延迟，这些都会对网站对用户的吸引程度有影响，这个因素要尽可能排除在外。

在做完一轮测试以后，这个一轮是一个自己设定的周期，3天也好7天也好亦或其他的天数，如果你基本能够保证每个用户从第一次看到网站入口开始就被分成AB两组中的一组而且从一而终的话，那就可以看看以下这些指标。以每种方案为观察单位：

用户平均一次访问的页数，

用户平均每页逗留时间的长度，

用户再访问比例，

N天留存率（回访率）。

通过这些比较大概就能比较出方案孰优孰劣了。也可能两者差不多，也可能都不太理想但是其中一个略好一些，不过这个时候已经能够做出选择了。

2、方案测试

如果不是一个网站，而是某一个产品的方案呢？还能这么简单地区做AB测试吗？其实也是可以的，因为AB测试不是一个具体的测试工具而是一种测试的思想。那我们再来看一个例子。

我们以一个右下角分辨率为300×200像素的升窗广告位产品为例。如果你是这个广告位产品的产品经理，你需要考虑这个广告位我如何安排版面的问题，至少我们有以下两种选择，亦或更多：

其一，可以推送一副大的广告。占满整个小广告屏，然后让里面的4副广告位进行2秒为单位的滚动。这个示例图中我们选了一个6幅图自动切换的样例，下面我们能够看到有6个切换钮，在画面滚动切换的时候，如果想跳转到其他编号的广告画面那就点击进行切换。4幅广告也是同理，只不过切换钮只有4个。

其二，可以推送四副小的广告。让这四副小的广告拼起来占满整个小广告屏。类似这种感觉，这个示例图中我们选了一个9附图的样例3×3这种的，也有4附图的，就是2×2的。

在用户触发了这次广告推送的事件以后，广告后台就要做出反应，我们可以用随机的方法进行1:1的推送，就是让这两种展示方式在每次请求中的几率均等，都是50%。一般来说，这基本也能够保证足够的随机性了。

之后我们就可以观察究竟由哪一个带来的广告点击转化率高，是第一种方式容易诱导用户点击广告位还是第二种方式容易诱导用户点击广告位，这个通过点击数÷推送数是很快能够得出来的，甚至用不了一天就出结果，极容易验证。只要有了结果，我们就可以考虑在全局使用这种方案了，因为已经有了足够的且确实的理由。

我们在做互联网产品的时候千万不要犯经验主义的错误，经验永远是局限的，唯一不变的东西就是变化本身。像这种广告，在没有测试过之前我们不能武断地判断一定是哪一者更好，因为两种方式也确实各有优缺点。

第一种大广告好处是图片清晰，内容可以更丰富；不好的因素是滚动，滚动就意味着我不能一目了然地看清所有的信息。第二种好处是一目了然；不好的因素是可用的分辨率变小，文字和图片的展示都比第一种更为有限。哪种转化率高只能通过比对结果的数据来说话了。

扩展一下这个话题。如果想把这个例子做到极致，还可以怎么做呢？我们还可以尝试对每次弹出的信息做分类。区分一下素材和题材，在相同的素材和题材下面去对比看哪一种转化率高。比如最后方案AB测试对比结果可能是这样：

	方案一转化率（%）	方案二转化率（%）
服装类	1.03	1.10
鲜花类	1.42	1.24
书籍类	0.77	0.98
汽车类	0.64	0.34
……	……	……

如果能够得到这样一个表格的话，那么在不同的广告投放方案被触发的时候我是可以采用不同的排版策略的，这样会比“一刀切”的排版方式提供更大的全局转化率。

其他维度上的对比我们可以再想别的方式去做，总之，有了AB测试，基本所有这种难以琢磨的偏好把握我们都有了量化对比的手段。

2.1 灰度发布

在游戏新版本的发布环节中有一个名词叫“灰度发布”。这个词还是蛮形象的，因为它表示的就是一个“黑白混杂”的情况。

那“黑”和“白”分别指什么呢？

其实我们可以认为“黑”就是旧版本，“白”是新版本，在两个版本进行更迭的时候就是一个从“黑”到“白”的过程。

一般一个游戏的客户端从启动就开始检测是否有新版本可以更新，如果有的话它就会启动更新模块开始下载，并把这些文件覆盖到客户端游戏的程序中去。不得不承认，即便在技术积累非常好的公司里，在全网范围内做更新都是一件很有风险的事情，这个风险很大程度上已经不是技术层面的风险了——即便你在封测阶段、内测阶段、体服公测阶段（在体验服务器上进行的半公开测试）的测试都能通过，不死机、不闪退、不卡顿，其实也并不能保证在全网更新后游戏论坛会被吐槽的人民群众刷屏。毕竟游戏版本中的对错不是以技术标准来衡量的，更多的是玩家情绪的反应，而情绪这个东西又太复杂，在这些测试的阶段也不一定能测出好的效果。怎么办？“灰度发布”应运而生。

用策略文件进行控制，可以仅对全网环境中的部分用户——可以是5%，可以是10%，也可以再多一些（不过这些数量级比封测和体服的数量级还是大多了）进行更新，看看他们的反应。这些反应有的会直接体现在当天的DAU（日活跃用户）上，也可能体现在下面接连几天的DAU上，也可能体现在其他指标上，也有可能会更直接地体现在官网论坛上或者客服MM的电话里。

每次“灰度发布”都是一个决策的实验而已，而接下来就是两种选择。一种，反响良好，继续更新到全网范围内。另一种，反响不理想，把已经升级的这些客户端回滚到前一个稳定版本——不能变好起码也要保持现状。

“灰度发布”在游戏里用的多只是因为游戏的版本更迭比较频繁，仅此而已，并非它只适合于游戏软件。其他任何的可以通过互联网进行分发的软件产品都可以采用这种思路，甚至是云端用网页来实现的软件也能用这种方式进行试探性的用户反馈测试。思路就是这样，简单吧？

不要小看这个简单的东西，用得好会让你的产品每次都能顺利爬台阶，一步一步走向正确的方向，这比求助任何行业专家都要成本低而且反馈灵敏。

2.2 注意事项

AB测试虽然好用，但是也是要注意技巧，尤其是它的局限性。请务必注意！

AB测试测试的是两种不同的方案，虽然能够比较出哪一种效果更好，然而方案的相异点越多，越无法定位造成影响的原因。

2.2.1 量化比较对象

在对比的过程中尽可能去量化比较的对象。例如在网站外形的比较中，字体大小的磅数，显示窗体大小的尺寸，每页的行数，如果想进行研究把他们作为对比的对象的话，这些值是要量化的。AB测试有可能会进行多轮，多轮之间的结果对比要形成一定的结论性的东西，也就是我们说的要试出一个经验值（Magic number）或者一个知识。至少下一次再做同类的事情不用从头开始试起，而如果要试，也就是试一下有没有比这个已知的最好值更好的值了。这对于“创新即生命”的互联网产品是极有意义的。你能接受所有的运营人员每天都在用“大一点”，“稍微有点小”，“不够快”这种感性的说法来在彼此之间传递信息吗？如果不能，那就尽量做到量化吧。

2.2.2 单一化

两个网站方案，色调不同，文字大小不同，布局也不同，每一页的条目数量不同，即便最后我们确实能比较出来有一种风格更容易被人喜欢。但是，究竟是由哪一种或几种因素“引发”了这种偏好的表现我们不得而知。

如果一定要得到对应的解释的话，我建议每次方案比较的时候把方案之间不同的地方压缩到最少，比如只有一个方面不同，其他的都相同。通常这样比较出来的结果针对性会非常强，对形成自己完善的产品运营和演进体系是有好处的。如果你担心要验证的方面太多会让验证周期加长也没关系，你可以同时开启多个AB测试的对照组，每个对照组进行独立的单一属性的对比，这样也能够在一定程度上缩短测试的周期。

2.2.3 强隔离

AB测试还要注意一个问题，也就是测试的环境应该是一种强隔离的环境，因为测试对象内部与外界如果联系过多会直接导致测试的失败或者根本无法进行。

世界上很多国家都是实行夏时制的，如澳大利亚、俄罗斯、以及欧盟各国。年轻的朋友可能有的人不太了解夏时制。

夏时制指的是是一种为节约能源而人为规定地方时间的制度，在这一制度实行期间所采用的统一时间称为“夏令时间”——对应的非制度期间叫做“冬令时间”。一般在天亮早的夏季人为将时间提前一小时，比如把表从9:00拨到8:00，然后在5个月后夏令时结束的时候再把表从8:00拨回到9:00而且是全国人民都这么干，据说这样可以使人早起早睡，减少照明量，以充分利用光照资源，从而节约照明用电。

我国在1935年到1979年间间断地实行过若干次夏时制，最近的一次是1986到1991年，每年的4月到9月，5个月时间实行夏时制。最后还是由于认为这种制度得不偿失而取消掉——不管怎么说在这段时间里，要保证所有的计时器时间都同步变化这一个小时，学校上课、火车载客、医院就诊，机构的时钟要变，人的时钟也要变。最要命的是不少人要为这1个小时，花一两周来倒时差。所以权衡利弊，在1991年以后我国再也没有做过夏时制的调整。

按说这种全国性的新制度政策应该就像经济特区或者试点城市一样做一个试点性的测试，但是就是真的有人想做恐怕实行者也会说“不管是城里还是乡下这东西都不会玩”。这些试点城市和外界的一切联系都是要靠时间来进行同步的，尤其是在国内这么频繁互动的环境，这个地区和其他地区的交通时刻表要做一个1小时的差值变换，电视节目转播要做1小时的差值变换，恐怕连打个电话都得说我们这边是几点你们那边是几点反复强调，不管重要不重要都要说三次，这些同样是巨大的成本。

2.2.4其他不不良后果

如果你要对你的产品用户做大礼包赠送这种活动，可是不知道送什么细节内容组合让用户更有粘着性或更满意。这种情况，也是可以考虑使用AB测试的。

准备两种不同内容的礼包，然后让用户自己选，记得做好登记工作以及事后持续不断的数据反馈工作，这样较为妥帖。

切忌1：不允许选择。

如果你不让用户自己选择，而是进行随机性的派发，那么很会让用户收到自己不满意的礼包而其实明明有另外一种礼包可能更适合他却没有派送给他。这种情况如果被用户知道的话，轻则背地里吐槽说运营人员脑子进水，重则会引发用户集体性拂袖而去。反正哪一种都不是原先派发的目的。

而且在大量的自主选择的过程中本身也能看出一定的情趣取向，那是不是一定要“双盲”就不能太过教条了。

切忌2：价值悬殊。

如果所做的两种对比礼包内容价值相差悬殊，尤其是非自主性选择的情况下，也会引起用户对公司厚此薄彼策略的猜测，如果公关部门不能很好地处理搞不好也会有一些群体事件。到时候别说我没提醒过你哟。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-05-06，如有侵权请联系 cloudcommunity@tencent.com 删除

腾讯云测试服务

游戏

本文分享自奇点微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

腾讯云测试服务

游戏

登录后参与评论

0 条评论

热度

大数据变现十日谈之七：AB测试

大数据变现十日谈之七：AB测试

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐