一種常見的AB測試誤區分析

發表于:2017-01-13來源:吆喝科技作者:吆喝科技點擊數: 標簽:AB測試
當AB測試的數據面板顯示“95%可能性比原版本有提升”,或者“90%可能統計顯著”,需要考慮如下的問題:假如A版本和B版本沒有潛在的差別,我們能看到數據中顯示出來區別的可能性有

一種常見的AB測試誤區

如果網頁正在運行AB測試的時候,你時不時的去查看試驗結果的顯著性,你就會陷入誤區。統計學上,重復檢驗顯著性是錯誤的行為。這樣做的后果是,即使數據報告顯示統計顯著,實際上仍有較大可能性非統計顯著。下面解釋原因。

背景

當AB測試的數據面板顯示“95%可能性比原版本有提升”,或者“90%可能統計顯著”,需要考慮如下的問題:假如A版本和B版本沒有潛在的差別,我們能看到數據中顯示出來區別的可能性有多大?這個問題的答案就是顯著性水平,“統計顯著的結果”意味著顯著性水平數值比較小,5%或1%。數據面板一般會取補集(95%或99%),作為“優于原版本的概率”或類似的東西來報告。
然而,顯著性水平的計算有嚴格的假設:樣本數量的多少是事先指定的。你很可能違反了該假設而不自知。如果開始試驗之前你沒有“本次試驗將采集1000個樣本”這樣的預期,而是打算“一看到統計顯著的結果就結束”,那么上報的顯著性水平將毫無意義。這一結論完全反直覺,大量AB測試工具忽略了這一點。下面會用一個例子解釋問題出在哪里。

例子

假設你在樣本量達到200和500時對試驗進行分析,4個可能發生情景如下:

 

AB測試誤區

假設AB版本效果相同,顯著性水平為5%,那試驗結束時,我們有5%的可能性得到統計顯著的結果。

 

而如果我們一觀察到顯著結果就停止試驗,事情會像下面這樣發展:

原文轉自:http://www.appadhoc.com/blog/a-mistake-analysis-of-abtesting/

国产97人人超碰caoprom_尤物国产在线一区手机播放_精品国产一区二区三_色天使久久综合给合久久97