AB測試是搜索營銷管理員非常喜歡的一種優化手段,但這并非SEM乃至在線營銷的專利。本質上這就是可控實驗:如果我們想針對SEM管理中的某個因素優化,就必須保持其他因素恒定以過濾掉可能的干擾。
舉個具體的例子,在SEM管理中最常使用的一種AB測試是廣告詞測試。同一系列的同一分組中同時投放廣告詞A與廣告詞B,兩則廣告輪流展示(even rotation),那這兩則廣告得到的展現幾率是大致相當的。
近似的展現幾率下,AB廣告詞如果表現出了CTR與CVR的差異,我們就可以判定哪一條廣告詞更好。
判定以后,我們砍掉表現不好的廣告詞(比如B),然后加入一條新的廣告詞B,重新開始一輪AB測試。我們可以不斷地進行這樣的測試,直到我們確信在運行的廣告詞是最好的。
當然,測試內容不局限于廣告詞,可以是到達頁面,可以是URL。測試也不需要局限于一個分組內,可以是系列,可以是目標市場,可以是轉化路徑,也可以是Offer。這是非常簡單的測試,然而是很有效的優化手段。如果你是一個搜索營銷管理員,暫時覺得手頭沒有什么事情可以做的話,說明你懶惰了。因為你永遠都可以做些AB測試來深入優化。
任何工具或者方法都有其局限,AB測試也不例外。這篇博文將要討論幾個AB測試陷阱,供大家借鑒。為了方便起見,主要引用的案例或者圖表是SEM管理的,但基本準則其實放之四海而皆準。
陷阱1:輪流展示。
我們對比方案A與方案B,首先要保證兩者所處的測試環境基本接近。在谷歌Adwords系統中,測試不同廣告語可以選擇輪流展示。
我翻譯成輪流展示,而非字面翻譯的“輪轉:平均展示”,因為意義不同。理論上,先展示廣告語A,然后展示廣告語B,這是輪流展示。平均展示可能是廣告語A與B獲得的展現量和點擊量接近,但要是A是在下午獲得大部分展示點擊,而B在夜間獲得,則兩組數據來源可能不同,橫向對比會產生偏差。
谷歌站長工具中的AB測試功能也使用輪流展示方案。
輪流展示是默認的AB測試設置,但測試者不能因此忘記輪流展示的原理,也即相對公平性。注意Adwords提示中說的是輪轉會“盡可能平均展示”。盡可能的意思就是不保證。實際上,在選定該設定后,出現的結果仍然可能是既不輪流也不平均。這是因為Adwords是個競價系統,廣告語A和廣告語B獲得同樣公平的機會進入同一個競價,但在競價過程中,質量得分高的那條廣告語會有更多勝出機會。所以AB短期內獲得的展示點擊量可能差別很大。在設置AB測試的時候,應該盡量使用新鮮的廣告語,如果讓歷史記錄較長的A與新鮮的B對抗,則A本身可能獲得更多展示和點擊,不完全公平。
要注意,這種情況發生以后,谷歌有可能會做一些平衡,讓兩者之間的差距相對縮短。這樣的情況下,這種展示可能更多是平均展示,而非輪流展示了。所以如果第一天兩者差距很大,第二天接近,第三天反超,這種情況下要小心數據有效性,有可能納入了更多的干擾因素。
在網站測試中,AB不是競價對抗,不會有這個質量得分因素,但仍應該注意展示數據對比的變化。
陷阱2:統計意義。
前面提到AB測試的環境應該盡量公平。但這不是說AB組數據必須對半開,才能有效分析。實際上,我們有時候必須用現有廣告語A與新增廣告語B對抗,必然面對較大的數據量差異。原則上,只要數據量充分,即使兩組數據總量相差比較大,還是可以獲得結論的。這是因為我們分析本身就是在查看趨勢,100個人對廣告語A的反饋和1000個人對廣告語A的反饋,趨勢可能相同。則100個人對廣告語B的反饋和1000個人對廣告語A的反饋,可能有可比性,只要原則上遵循輪流展示,我們可以假定這個趨勢是穩定的。
問題在于,怎樣算數據量充分呢?我們在實戰中經常使用一個詞匯叫做“統計意義” “statistical significance”。什么叫統計意義呢?英文原詞實際上指的是統計學中的P值,也即顯著性判斷。比如我們設立一個假設廣告語A的表現比廣告語B好,這個假設檢驗中P=0.05,就是說有5%的可能性廣告語B其實比廣告語A好,而95%的可能性A確實比B好。這個5%有任何意義嗎?沒有,SEM實戰中我們并不關心這個P值,因為干擾因素眾多,肯定取不到絕對的精確度。
在實戰中,我們說這個對比是否具有統計意義,是說數據是否提供證明,A確實有多少可能性好過B。比如要對比廣告語A和廣告語B的點擊率或者轉化率,A的點擊率為50%, B點擊率為100%, 看起來B比A好了一輩,可這樣的的數據是否具有統計意義,或曰,是否可信呢?
我所遇到過的不少搜索營銷管理員在這個問題上都比較粗放,憑感覺來??赡?.1%不比1.8%好,但是2.5%就比1.8%好了。實際上,單一的點擊率或者轉化率是沒有意義的,必須納入數據規模才行。1000個展現的點擊率2.5%似乎比1000個展現的點擊率1.8好,但是1000個展現的點擊率2.1%是不是比20個展現的點擊率1.8%好呢?抓頭皮了。其實網上有免費的工具可以提供簡單的運算:http://www.splittester.com/index.php
利用Splitertester我們可以把AB測試的數據直接對比獲得一個結果,如果數據過于接近,工具會提示你這個對比還不足以產生讓人放心的結果。很方便吧?但要注意,這個工具主要測試的是兩組數據之間的接近度,數據確實拉開距離的時候,它才能幫我們做出判斷。但它并不衡量數據的充足性??催@個圖:
A的點擊1個,點擊率50%, B的點擊2個,點擊率100%。Splittester說我們有90%的信心B的表現會比A好。你有這個信心么?我沒有……個位數的數據幾乎總是不可靠的。多幾個點擊或者轉化就會完全改變點擊率或者轉化率,這么大的隨機因素,我不可能對太過稀疏的數據產生90%的信心。
原文轉自:http://www.anti-gravitydesign.com