摘自A/B测试中的圣经–《关键迭代:可信赖的线上对照实验》
特威曼定律的怀疑论:任何看起来有趣或与众不同的数字通常是错误的
《关键迭代:可信赖的线上对照实验》摘要总结
第一部分:线上对照实验概览,即AB测试方法论
第一章
线上实验的关键术语
术语 | 含义 | 解读 |
---|---|---|
综合评估标准 | Overall Evaluation Criterion,即OEC,实验目标的定量测量 | 人均活跃天数(即可测量可观察的指标) |
参数 | 对照实验中被认为会影响OEC或其他指标的变量,亦称为变量或因素,参数的赋值也称为因子水平 | 比如字体颜色和字体大小(即AB测试中影响实验组的功能) |
变体 | 被测试的用户体验,一般通过给参数赋值实现 | 在最简单的AB测试中,A与B就是两个变体,通常被称为实验组和对照组,有时变体仅指代实验组 |
随机化单元 | 以伪随机化(如哈希)过程将单元(如用户或页面)至不同变体 | 即随机分配用户进入实验 |
线上对照实验的特性
线上对照实验有以下特性
它是以高概率确立因果关系的最佳科学方法
能够检测其他技术难以检测到的微小变动,比如随着时间变化(灵敏度)
能够检测意想不到的变动,虽然常被低估,但很多实验发觉了一些对其他指标出乎意料的影响,比如性能的降低,系统崩溃和出错的增加或是对其他模块的点击的吞噬
战略、战术及他们和实验的关系
情景1.你已有业务战略并且产品有足够的用户用于实验
对于这种情景,AB测试可以帮助你重现用的战略和产品触发,爬升至局部最优点
实验能找到高ROI区域:
- 那些相对于成本提升OEC最多的领域,在投入大量资源之前,在不同的领域测试MVP(Mininum Viable Product,最小可行产品)
MVP(最小可行产品)的概念
MVP的概念是Eric Ries 《精益创业》里提出的概念。简单地说,就是指开发团队通过提供最小化可行产品获取用户反馈,并在这个最小化可行产品上持续快速迭代,直到产品到达一个相对稳定的阶段。MVP对于创业团队来说是很重要的,可以快速验证团队的目标,快速试错。
情境2.你有产品和战略,但你需要调整
测试大胆的想法时,运行和评估实验的方式也有变化,具体来说,我们需要考虑以下几点:
实验的运行时长:
- 例如,在测试重大UI设计时,短期内测量到的实验数据变化可能被初始效应或改版厌恶所影响,实验组和对照组直接比较可能无法测量真实的实验时长,更长时间或更大规模的实验,或者别样的实验设计(比如谷歌广告质量的案例是以国家为单位设计的),在这样的情境中是必需的
被测试的创意的数量:
- 你也许需要很多不同的实验,因为每个实验只测试一个具体的战术,该战术是总体战略的一个组成部分,个别实验没能成功改进OEC可能是因为这个特定战术的失败,不代表总体战略有问题
- 说人话就是:仅单一实验可能面临实验维度颗粒度不够细,无法下钻维度确定问题所在点,因此需要多个颗粒更细的实验组合成一个总体的实验
补充阅读
多臂老虎机实验
多臂老虎机是一种随实验进程动态分配流量的实验,比如我们可以每小时查看一次实验进程,观察每个变体的表现,并调整各变体的流量比例,增加表现好的变体的流量,减少表现差的变体的流量
基于多臂老虎机的实验往往比经典的AB测试更有效率,因为它们将流量逐步分配至表现更好的变体,而不用等到实验结束
但同样也有重要限制条件:评估目标需要是单一的OEC,并且这个OEC在流量重新分配时能够很好的被测量,比如点击率之于会话
此外,原本处于’差’变体中的用户按比例不同分配至其他表现较好的多个变体可能会造成潜在的偏差