第一行和之前一樣,收集200個樣本之后報告的顯著性水平沒啥問題。然而問題出在第三行,試驗結束時,假設AB兩個版本實際效果相同,我們得到統計顯著結論的比例上升了。因此,顯著性水平——用來衡量因為運氣因素觀察到區別的概率——將是錯誤的。
如果你的轉化率是50%,想測試一下新的logo是否能把轉化率提升到50%以上。你打算觀察到5%級別的統計顯著性就停止試驗,否則在收集150個樣本后停止試驗。假設新logo沒有任何影響,得到錯誤的統計顯著結果的概率有多大?不過5%?根據前面的分析,也許是6%?
結果是26.1%-比你預計的顯著性水平的5倍還多。這是最差的情況,因為我們每收集一個新樣本都檢查統計顯著性,(也不是沒有這樣先例)。至少有一家AB測試平臺確實提供在出現統計顯著就停止試驗的功能。聽起來這是個巧妙的花招,直到你意識到在統計學上這是惡習。
重復進行顯著性檢查總會增加虛報概率,也就是說會把許多本來非顯著的結果變成顯著(而不是反之)。只要你有“偷窺”數據,發現統計顯著就結束試驗的行為,該問題就會存在。偷窺的越頻繁,顯著性水平偏差越大。例如,在試驗過程中偷窺10次,表面上是1%的顯著性實際上僅是5%的顯著性。下面的表格展示了在有偷窺的情況下,數據報表中的顯著性需要達到多少才能有實際上5%顯著性。
偷窺次數達到實際顯著性水平5%所需要的報告顯著性水平
1次 2.9%
原文轉自:http://www.appadhoc.com/blog/a-mistake-analysis-of-abtesting/