什么是A/B测试?
我们使用A/B测试来获得APP或网页中同一个变量不同版本的差异。控制A/B中该变量的参数,其他变量保持不变,观察测试人员的反映,判断A/B哪一个版本效果更好。
上面这张图,我本人也更喜欢右边的效果
感觉有点熟悉,是不是和初中就学到的控制变量法异曲同工?
A/B测试如何运作?
在一个完整A/B测试中,我们需要创建一个新的容器,与旧的相比,这个新容器可能只是修改了一些按钮颜色,也有可能是改变了整个的页面架构。一半的用户会被展示新的容器,另一半的用户还是智能看到旧的容器,这里我觉得不是所有测试情况都需要五五开,因为用户水平、素质和审美并不是所有情况下都是均匀的。参考知乎上这张图对流量的分配:
有一个专业的网站可以计算所需要的样本量
进一步的,我们通过后台的数据来观察我们的变量是产生了正面还是负面的影响。
为什么要做A/B测试?
- 帮助开发团队快速了解用户的喜好,了解哪些元素会对其产生影响
- 试错
- 帮助优化用户体验,甚至达到一种营销的效果,比如微信刚出拍一拍那会(虽然微信也不用营销)
- 帮助计算ROI(return on investment,投资回报率)
怎么做A/B测试?
- 收集数据 寻找需要改进的页面,比如那些低转化率(conversion rates),高流失率(drop-off rate)的页面;
- 确立目标 可能是用户点击这个页面,又或者是用户进行了转发;
- 生成假设 提出想法→建立假设(为什么你会觉得这个改变会管用呢?)
- 创造变量
- 执行实验
- 分析结果 确定是否有显著性差异(Statistical Significance)
如何评估效果?
方案 1 和方案 2,哪个效果更好?
对于留存率和渗透率,可以采取卡方检验,对于人均时长,可以采取T检验
哪个 ROI 更高?
实验组假设不做活动日活跃天 = 对照组日活跃天 * (实验组流量 / 对照组流量)
实验组收益 = 实验组日活跃天 - 实验组假设不做活动日活跃天
长期来看哪个更好?
需要考虑新奇效应,需要观测指标到稳定态后,再做评估。
不同的用户群体有差异吗?
很多情况下,对新用户可能实验组更好,老用户对照组更好;对年轻人实验组更好,中年人对照组更好。
为什么是这样呢?或许是因为新用户(年轻用户)对变化更敏感。
反馈实验结论,包括直接效果(渗透、留存、人均时长等)、ROI。
以上内容参考
A/B Testing https://www.optimizely.com/optimization-glossary/ab-testing/
什么是 A/B 测试? - 腾讯技术工程的回答 - 知乎 https://www.zhihu.com/question/20045543/answer/1103961403