一種常見的AB測試誤區分析(2)

發表于:2017-01-13來源:吆喝科技作者:吆喝科技點擊數: 標簽:AB測試
第一行和之前一樣,收集200個樣本之后報告的顯著性水平沒啥問題。然而問題出在第三行,試驗結束時,假設AB兩個版本實際效果相同,我們得到統計顯著

 

AB測試原理

 

第一行和之前一樣,收集200個樣本之后報告的顯著性水平沒啥問題。然而問題出在第三行,試驗結束時,假設AB兩個版本實際效果相同,我們得到統計顯著結論的比例上升了。因此,顯著性水平——用來衡量因為運氣因素觀察到區別的概率——將是錯誤的。

問題有多嚴重?

如果你的轉化率是50%,想測試一下新的logo是否能把轉化率提升到50%以上。你打算觀察到5%級別的統計顯著性就停止試驗,否則在收集150個樣本后停止試驗。假設新logo沒有任何影響,得到錯誤的統計顯著結果的概率有多大?不過5%?根據前面的分析,也許是6%?

 

結果是26.1%-比你預計的顯著性水平的5倍還多。這是最差的情況,因為我們每收集一個新樣本都檢查統計顯著性,(也不是沒有這樣先例)。至少有一家AB測試平臺確實提供在出現統計顯著就停止試驗的功能。聽起來這是個巧妙的花招,直到你意識到在統計學上這是惡習。

 

重復進行顯著性檢查總會增加虛報概率,也就是說會把許多本來非顯著的結果變成顯著(而不是反之)。只要你有“偷窺”數據,發現統計顯著就結束試驗的行為,該問題就會存在。偷窺的越頻繁,顯著性水平偏差越大。例如,在試驗過程中偷窺10次,表面上是1%的顯著性實際上僅是5%的顯著性。下面的表格展示了在有偷窺的情況下,數據報表中的顯著性需要達到多少才能有實際上5%顯著性。
偷窺次數達到實際顯著性水平5%所需要的報告顯著性水平

1次           2.9%

原文轉自:http://www.appadhoc.com/blog/a-mistake-analysis-of-abtesting/

国产97人人超碰caoprom_尤物国产在线一区手机播放_精品国产一区二区三_色天使久久综合给合久久97