一種常見的AB測試誤區分析(4)_軟件測試工程師入門

劉慈欣談ChatGPT：人類的無能反而

OpenAI 因使用“竊取”的個人數據

搜狐回應員工遭遇工資補助詐騙：

軟件測試 > 測試技術 > 軟件測試工程師入門 >

一種常見的AB測試誤區分析(4)

發表于：2017-01-13來源：吆喝科技作者：吆喝科技點擊數：標簽：AB測試

兩個t是給定顯著性水平/2和統計功效1-的t統計量聽起來痛苦，你甚至可以考慮把試驗效果的當前估計值去除掉，直到試驗結束再顯示。如果該信息用于提

兩個t是給定顯著性水平α/2和統計功效1-β的t統計量
聽起來痛苦，你甚至可以考慮把試驗效果的“當前估計值”去除掉，直到試驗結束再顯示。如果該信息用于提前結束試驗，則報告的顯著性水平毫無意義。

如果你真想把這事做對：事先固定樣本大小可能令人沮喪，如果改動后效果確實不錯，難道不應該立刻部署嗎？這個問題長期困擾著醫學界，因為醫學研究人員通常希望在新的療法看起來有效時停止臨床試驗，但是他們還需要對其數據進行有效的統計推斷。下面是兩種用于醫學試驗設計的方法，有些部分應該也適用于網頁試驗：

序貫分析試驗設計：序貫分析試驗設計讓你可以預先設定檢查點，決定是否繼續試驗，給出正確的顯著性水平。

貝葉斯試驗設計：貝葉斯試驗設計讓你可以隨時停止試驗并給出正確推斷。實時反映網頁試驗的狀態，貝葉斯方案看起來是未來發展方向。

結論

雖然數據面板看起來很強大和方便，但在進行中的A/B測試中被濫用。任何時候，當它們與手動或自動的“停止規則”結合使用時，顯著性檢驗結果會無效。除非在軟件中實現序貫分析或貝葉斯實驗設計，否則任何運行網頁試驗的試驗者都應該只在樣本量已經提前固定的情況下進行試驗，并且像虔誠的教徒一樣堅持該樣本量。

原文轉自：http://www.appadhoc.com/blog/a-mistake-analysis-of-abtesting/

軟件測試 > 測試技術 > 軟件測試工程師入門 >

一種常見的AB測試誤區分析(4)

結論

相關文章

全網最詳細的接口測試實戰

先測試再開發？TDD測試驅動

自動化測試架構

軟件測試架構師的知識能力

大數據平臺測試方法

用不同的測試模型來構建測

當軟件測試遇上ChatGPT：軟件

軟件測試用例評審說明

全網最詳細的接口測試實戰

先測試再開發？TDD測試驅動

自動化測試架構

軟件測試架構師的知識能力

大數據平臺測試方法

用不同的測試模型來構建測

當軟件測試遇上ChatGPT：軟件

軟件測試用例評審說明

MBT基于模型的測試介紹資料

iso29119相關介紹性資料

HP QTP 10 中文版官方中文補丁

HP QTP 10 英文版下載地址

HP ALM 11 官方中文版下載地址

Quality Center 9.0中文版下載地

HttpWatch Basic Edition Version 7.

WIN2003+ORACLE11G+QC11(ALM11) 安裝

WIN2003+SQL2005(SP3)+QC11(ALM11) 安

軟件測試沙龍 More>>

新浪微博 More>>

熱門標簽

《測試團隊的招聘與管理

《我們應該如何構建我們

軟件測試 > 測試技術 > 軟件測試工程師入門 >

一種常見的AB測試誤區分析(4)

結論