兩個t是給定顯著性水平α/2和統計功效1-β的t統計量
聽起來痛苦,你甚至可以考慮把試驗效果的“當前估計值”去除掉,直到試驗結束再顯示。如果該信息用于提前結束試驗,則報告的顯著性水平毫無意義。
如果你真想把這事做對:事先固定樣本大小可能令人沮喪,如果改動后效果確實不錯,難道不應該立刻部署嗎?這個問題長期困擾著醫學界,因為醫學研究人員通常希望在新的療法看起來有效時停止臨床試驗,但是他們還需要對其數據進行有效的統計推斷。下面是兩種用于醫學試驗設計的方法,有些部分應該也適用于網頁試驗:
序貫分析試驗設計:序貫分析試驗設計讓你可以預先設定檢查點,決定是否繼續試驗,給出正確的顯著性水平。
貝葉斯試驗設計:貝葉斯試驗設計讓你可以隨時停止試驗并給出正確推斷。實時反映網頁試驗的狀態,貝葉斯方案看起來是未來發展方向。
雖然數據面板看起來很強大和方便,但在進行中的A/B測試中被濫用。任何時候,當它們與手動或自動的“停止規則”結合使用時,顯著性檢驗結果會無效。除非在軟件中實現序貫分析或貝葉斯實驗設計,否則任何運行網頁試驗的試驗者都應該只在樣本量已經提前固定的情況下進行試驗,并且像虔誠的教徒一樣堅持該樣本量。
原文轉自:http://www.appadhoc.com/blog/a-mistake-analysis-of-abtesting/