關于A/B測試批評的反駁

發表于:2012-03-13來源:譯言網作者:david點擊數: 標簽:軟件測試;測試方法
最近,A/B測試在互聯網各界都受到了甚至是不公正的批評。這些批評包含了A/B測試的一些相關要點,但基本論點是站不住腳的。這些批評混淆了(例如,測試紅色與路色按鈕的區別或是其他)與A/B測試方法之間的關系?,F在讓我們看下最近在網絡上的些爭論,為什么他們

  最近,A/B測試在互聯網各界都受到了甚至是不公正的批評。這些批評包含了A/B測試的一些相關要點,但基本論點是站不住腳的。這些批評混淆了(例如,測試紅色與路色按鈕的區別或是其他)與A/B測試方法之間的關系?,F在讓我們看下最近在網絡上的些爭論,為什么他們的批評是沒有根據的。

  爭論一:A/B測試與局部極小化

  Jason Cohen在他的文章《Out of the cesspool and into the sewer: A/B testing trap》 | 中文翻譯版本:《[譯文]小心A/B測試的陷阱:從水溝流入下水道的水》中認為:A/B測試往往得到的結果是局部最小值,而非真正想得到的全局最小值。對于那些把頁面上每個區塊作為提升轉化率的部分,而又不清楚局部最小值與全局最小值區別的人來說。這就好比說,在網頁里每個區塊都是都是個變量:這些的數值自然越低越好。通過下面來自jason Cohen的圖 ,就可以知道出局部最小值與全局最小值的區別。

  即便是在jason文章里,爭論的焦點也不在于A/B測試,因為激進的調整頁面并使用相同的測試方法也可得到全局最小值。因此聲稱局部最小值是A/B測試陷阱是不公平的,因為這與A/B測試方法根本就沒關系。相反,在爭論中卻揭示出微調并做測試的方法是徒勞無功的。

  那么,如果A/B測試沒有問題,那么是局部最小值的問題嗎?即便打了折扣的局部最小值的理論是錯誤的,答案依舊是否定的。上面的圖片展示了非常淺顯易懂的一維度曲線。你可以把x軸當作背景色y軸當作跳出率。Jason的文章可以歸納為:如果測試了一組不同的藍色,你可能減少跳出率。但如果你嘗試著將顏色改掉(例如,黃色),你可能會得到可能是最低的跳出率。

  下面是本爭論的兩個問題:

  1、你永遠都不知道是否已經得到了全局最低值

  全局最低值僅存在于理論中。讓我們繼續之前的改為黃色背景得到跳出率全局最小值的范例。在進一步的測試中,如果我們發覺沒有背景色得到更低的跳出率該怎么辦?或者放置張可愛小貓的背景得到更低的跳出率呢?問題的關鍵點在于,除非可以把跳出率降低到0%(或轉化率達到100%),否則你將永遠懷疑自己是否達到真正意義上的全局最小值。

  另一個檢測是否找到全局最小值的方法是窮舉所有可能性。理論上,你頁面僅修改背景色(你不能使用背景圖片,因為你老板討厭用背景圖)。那么你可以將所有可能的顏色嘗試一遍并取其中最小值的方案。在窮舉所有可能色彩中,那個得到最小值的背景色就有可能是全局最小值。這就帶出了下一個問題…

  2、這不僅僅是背景色的問題

  當優化頁面時,你需要面對成百上千的變量(背景色只是其中的一個)。標題、文案、布局、頁面長度、視頻、文字顏色、圖片這些僅是其中的一小部分變量。優化頁面取決于頁面所有的一切。這意味著之前看到的曲線不只是我們所見到的一維的。在現實中,它是被上千個變量影響著的多維結構。

  再強調一下,把圖中的山峰想像成你的轉化率(或是跳出率),變量在不同的維度上(盡管貌似就只有兩個變量,但事實上有上百個)。與一維的例子不同的是,在真實頁面上窮舉所有可能性是不可能的。因此,你不必刻意去追求全局最大(最小)值。吸取教訓:接受局部最小值。

  爭論二:A/B測試的細微改版

  SEOMoz的Rand Fishkin寫了篇《Don’t Fall Into the Trap of A/B Testing Minutiae》 | 中文翻譯版本:《[譯文]不要落入A/B測試的局部最小值陷阱中》的文章,在文中他重申了Jason關于不要浪費時間在測試頁面細小元素上(如,標題,文字等)。他的主要論點是:使用細微改版得到局部最大值的方法花費了太多精力和時間,這樣做并不值得。下面的圖片來自他的博客,稍有調整。

  首要指出的是機會成本不是需要足夠的時間來測試(這可能需要以幾周時間),而應該是設置測試的時間(這需要幾分鐘)。一旦設置好測試,就幾乎是自動的,其風險僅是設置測試時花費的時間。如果,投資15分鐘的時間可以進行次按鈕顏色測試最終的結果可以提升1.5%的轉化率,這還有什么錯誤嗎?

  許多A/B測試工具(包括我啟動的visual website optimizer)可以很容易的進行小的測試。這些測試工具可以在后臺監測測試,如果結果不理想就會自動停止。那么做這樣的測試會有什么樣的風險呢?我只看到好的一面:增加了銷售額與轉化率。

  Rand為了證實自己的觀點,他給出一份最近的Basecamp 首頁重新設計稿,該設計將Basecamp轉化率提升了14%。你能想像得到進行這樣的一次重新設計(相比于改變按鈕顏色測試)所帶來的影響嗎?事實上,由于曲線是在于多維度上的,一個完全的重新設計有很高的失敗概率。復雜的重新設計導致失敗的可能性要比改動一個按鈕的顏色大得多。因為我們從來沒有聽說過重新設計導致失敗的案例眼睛,我們也不能就此認為版面大幅度的改動要比版面微調的效果好(尤其是,版面大幅度改動所需要的投入與時間要比版面微調多得多)。

  通過局部最小值,你至少知道轉化率正在增長,這是往增長利潤前進的方向。但這并不代表說將放棄追求全局最小化的目標。全局最佳就像是世界和平:很難達到目標,但我們一直朝著正確的方向努力。要吸取的教訓是:理想的策略包含了小測試(紅色與藍色對比)與版面大幅度改動這兩者。跳過轉化率曲線山脈,可以確保你不斷的找到更好的轉化率。

  爭論3:

  Jeff Atwood 寫到電影《偷天情緣》( 譯者注:電影中的男主角是個氣象預報員,在去一小鎮報導當地的土撥鼠日慶典后。第二天醒來發覺時間依舊停留在前一天的土撥鼠日。昨日的一切又重復上演。無論他如何選擇渡過這一天,他都無法前進一步。 )與A/B測試相比,得出結論由于男主角失敗了所以A/B測試也會失敗。在jeff的所有比較中,他認為A/B測試缺乏激情并且扼殺創造力。他繼續引用Natha Bowers的一tweet:

原文轉自:http://www.anti-gravitydesign.com

国产97人人超碰caoprom_尤物国产在线一区手机播放_精品国产一区二区三_色天使久久综合给合久久97