一種常見的AB測試誤區分析(2)_軟件測試工程師入門

一種常見的AB測試誤區分析(2)

發表于：2017-01-13來源：吆喝科技作者：吆喝科技點擊數：標簽：AB測試

第一行和之前一樣，收集200個樣本之后報告的顯著性水平沒啥問題。然而問題出在第三行，試驗結束時，假設AB兩個版本實際效果相同，我們得到統計顯著

AB測試原理

第一行和之前一樣，收集200個樣本之后報告的顯著性水平沒啥問題。然而問題出在第三行，試驗結束時，假設AB兩個版本實際效果相同，我們得到統計顯著結論的比例上升了。因此，顯著性水平——用來衡量因為運氣因素觀察到區別的概率——將是錯誤的。

問題有多嚴重？

如果你的轉化率是50%，想測試一下新的logo是否能把轉化率提升到50%以上。你打算觀察到5%級別的統計顯著性就停止試驗，否則在收集150個樣本后停止試驗。假設新logo沒有任何影響，得到錯誤的統計顯著結果的概率有多大？不過5%？根據前面的分析，也許是6%？

結果是26.1%－比你預計的顯著性水平的5倍還多。這是最差的情況，因為我們每收集一個新樣本都檢查統計顯著性，（也不是沒有這樣先例）。至少有一家AB測試平臺確實提供在出現統計顯著就停止試驗的功能。聽起來這是個巧妙的花招，直到你意識到在統計學上這是惡習。

重復進行顯著性檢查總會增加虛報概率，也就是說會把許多本來非顯著的結果變成顯著（而不是反之）。只要你有“偷窺”數據，發現統計顯著就結束試驗的行為，該問題就會存在。偷窺的越頻繁，顯著性水平偏差越大。例如，在試驗過程中偷窺10次，表面上是1%的顯著性實際上僅是5%的顯著性。下面的表格展示了在有偷窺的情況下，數據報表中的顯著性需要達到多少才能有實際上5%顯著性。
偷窺次數達到實際顯著性水平5%所需要的報告顯著性水平

1次 2.9%

原文轉自：http://www.appadhoc.com/blog/a-mistake-analysis-of-abtesting/

軟件測試 > 測試技術 > 軟件測試工程師入門 >