一种常见的AB测试误区分析_软件测试工程师入门

一种常见的AB测试误区分析

发表于：2017-01-13来源：吆喝科技作者：吆喝科技点击数：标签：AB测试

当AB测试的数据面板显示“95%可能性比原版本有提升”，或者“90%可能统计显著”，需要考虑如下的问题：假如A版本和B版本没有潜在的差别，我们能看到数据中显示出来区别的可能性有

一种常见的AB测试误区

如果网页正在运行AB测试的时候，你时不时的去查看试验结果的显著性，你就会陷入误区。统计学上，重复检验显著性是错误的行为。这样做的后果是，即使数据报告显示统计显著，实际上仍有较大可能性非统计显著。下面解释原因。

背景

当AB测试的数据面板显示“95%可能性比原版本有提升”，或者“90%可能统计显著”，需要考虑如下的问题：假如A版本和B版本没有潜在的差别，我们能看到数据中显示出来区别的可能性有多大？这个问题的答案就是显著性水平，“统计显著的结果”意味着显著性水平数值比较小，5%或1%。数据面板一般会取补集（95%或99%），作为“优于原版本的概率”或类似的东西来报告。
然而，显著性水平的计算有严格的假设：样本数量的多少是事先指定的。你很可能违反了该假设而不自知。如果开始试验之前你没有“本次试验将采集1000个样本”这样的预期，而是打算“一看到统计显著的结果就结束”，那么上报的显著性水平将毫无意义。这一结论完全反直觉，大量AB测试工具忽略了这一点。下面会用一个例子解释问题出在哪里。

例子

假设你在样本量达到200和500时对试验进行分析，4个可能发生情景如下：

AB测试误区

假设AB版本效果相同，显著性水平为5%，那试验结束时，我们有5%的可能性得到统计显著的结果。

而如果我们一观察到显著结果就停止试验，事情会像下面这样发展：

原文转自：http://www.appadhoc.com/blog/a-mistake-analysis-of-abtesting/

软件测试 > 测试技术 > 软件测试工程师入门 >

一种常见的AB测试误区分析

一种常见的AB测试误区

例子

相关文章

全网最详细的接口测试实战

先测试再开发？TDD测试驱动

自动化测试架构

软件测试架构师的知识能力

大数据平台测试方法

用不同的测试模型来构建测

当软件测试遇上ChatGPT：软件

软件测试用例评审说明

全网最详细的接口测试实战

先测试再开发？TDD测试驱动

自动化测试架构

软件测试架构师的知识能力

大数据平台测试方法

用不同的测试模型来构建测

当软件测试遇上ChatGPT：软件

软件测试用例评审说明

MBT基于模型的测试介绍资料

iso29119相关介绍性资料

HP QTP 10 中文版官方中文补丁

HP QTP 10 英文版下载地址

HP ALM 11 官方中文版下载地址

Quality Center 9.0中文版下载地

HttpWatch Basic Edition Version 7.

WIN2003+ORACLE11G+QC11(ALM11) 安装

WIN2003+SQL2005(SP3)+QC11(ALM11) 安

软件测试沙龙 More>>

新浪微博 More>>

热门标签

《测试团队的招聘与管理

《我们应该如何构建我们

软件测试 > 测试技术 > 软件测试工程师入门 >

一种常见的AB测试误区分析

一种常见的AB测试误区

例子