可用性測試的權衡之道_功能測試

可用性測試的權衡之道

發表于：2012-01-04來源：未知作者：Bo-jian點擊數：標簽：

可用性測試的權衡之道對于可用性測試，業內人士存在一些普遍認可的原則。它們神圣地如同自然科學里的理論，似乎我們只能對其言聽計從、俯首稱臣才能踐行出“好的可用性測試”。其實，即便是科學，它的一個特征也是“可證偽性”——理論的正確性總是存在前提條

　　可用性測試的權衡之道(一)

　　對于可用性測試，業內人士存在一些普遍認可的原則。它們神圣地如同自然科學里的理論，似乎我們只能對其言聽計從、俯首稱臣才能踐行出“好的可用性測試”。其實，即便是科學，它的一個特征也是“可證偽性”——理論的正確性總是存在前提條件的。真理再向前一步就成為謬誤!

　　可用性測試中的原則同樣如此，需要根據目的、資源、環境的不同，靈活把握、權衡取舍，而非一味恪守某一個或某幾個原則，也許這才是可用性從業人員經驗重要性的體現。

　　一.任務設置：精細 VS 寬泛

　　制定的任務過于精細，一般原則上是反對的。理由很清楚，如果你的任務精細到一步一步“引導”用戶進行操作，那太不符合用戶現實中的使用情境，平時沒有人在旁邊“引導”用戶的每一步操作;而且過于控制用戶的操作步驟，用戶缺乏真實使用時的靈活性。

　　是不是我們設置的任務只能是寬泛的，不能細化呢?這就必須根據研究的目的來做抉擇。如果產品處在設計的初期，我們需要關注一些宏大的問題(如：網站的整體架構、導航和分類的合理性、頁面的邏輯關系)，此時就需要通過寬泛而有彈性的任務，來查找宏觀層面的問題。如果產品的設計已經非常完善，開始進行細節的修改迭代，此時就需要通過設置相對具體的任務來查找特定的細節問題(如：對某個命名的理解、按鈕的使用、鏈接的點擊、表單的填寫)。按照《Don’t make me think》一書的觀點：一般用戶使用互聯網產品時滿足于能用就行，不會尋求最好的使用方法;只掃描網頁，不會仔細閱讀。所以，如果完全寬泛有彈性地設置任務，雖然更吻合實際使用情況，但是很可能用戶直接跳過你想考察的細節。

　　實際工作中，由于時間和資源的限制，無法做到每個產品從設計初期到上線前后進行多次可用性測試?？赡茉谝淮蔚目捎眯詼y試中即需要同時關注宏觀方面和細節上的問題。此時，還是需要和產品經理、交互設計師反復溝通，確認測試的主要目的，同時通過對任務設置精細程度的權衡把握，使次要目的也盡量得以滿足。

　　不過，即便是想考察細節的任務，也要盡量避免“直接指導操作”式的語言描述方式，這樣能讓任務與真實使用情境不會相距太遠。例如：想考察豆瓣讀書頁面【想要】按鈕是否能被看到、是否具備可點擊感。下面列出兩種表述方式，以作對比：

　　A.請找到您喜歡的那本書，并在該頁面點擊【想要】。(×)

　　B.請找到您喜歡的那本書，并在該頁面對其作個標記。(√)

　　二.任務數量：多VS少

　　任務數量的多少與可用性測試考察范圍有關，與任務的精細程度也有關。如果對網站全站進行考察和只對其中某個頁面、某個操作流程進行考察，所需的任務數量自然不一樣。在同樣的考察范圍下，如果任務設置得越精細，所需任務數量也就越多。

　　Lindgaard和Chattratichart(2007)的研究發現任務數量與發現可用性問題比例存在顯著的相關關系(r=0.82，p<0.01)。為了盡可能多地發現可用性問題，我們就盡量多地設置任務給用戶嗎?

　　此時要考慮任務數量過多可能帶來的弊端：學習效應和疲勞效應，尤其是靠后的任務更可能會受影響。心理學實驗中處理此問題的方法是順序平衡，抵消影響。但是可用性測試中設置的場景和任務存在特定的先后次序，不適合采用順序平衡的方法?；谖覀兊慕涷?，還是通過對測試的任務數量進行控制，確保正式測試環節最多不超過1小時，加上前后的歡迎語、訪談、問答等，整個過程不超過1.5小時。

　　此外，任務數量的多少還會間接影響到測試所需參與者數量的多少。

　　三.用戶人數：5個足夠VS 5個不夠

　　Nielsen的研究發現，5個用戶可以發現80%以上的可用性問題。這個結論得到許多人的推崇，因此稱之為“魔法數字5”。這個結論的來源依據是每個用戶平均可以發現30%的可用性問題，且假設所有問題都有同等被發現的概率。不過，當設置的任務數量過多，且任務的精細程度和難度多種多樣時，這個前提有可能不成立。

　　Lindgaard和Chattratichart(2007)的研究發現測試用戶數量與發現的可用性問題比例并不存在顯著的相關關系。這個結論似乎又支持我們選擇少量用戶進行測試即可。

　　其實，在用戶招募階段，比用戶數量更需要重視是用戶的代表性的問題。能否招募到有代表性的用戶將直接影響可用性測試的成敗。如測試一個醫療軟件產品，招募到醫護人員和患者作為測試用戶，那5個用戶可能就足夠了;但如果只招募到醫學實習生來測試，就必須超過5個以上的用戶(即便這樣，也未必能推論到整個產品的用戶群)。

　　由此看來，招募用戶的人數和任務的數量、精細程度、用戶的代表性也是息息相關的。參考Tom Tullis(2009)和本人經驗：當可用性測試范圍限定在一定的范圍(20個任務內、或30個網頁之內)，且招募到很強代表性的用戶，那么5個足夠了。如果存在著差別較大的亞群體，爭取做到每個亞群組有5個左右的代表性的用戶(當然，目標用戶的特征及分類應該是在可用性測試之前的用戶調研階段就解決的問題);一次測試最多不會超過12個用戶。

　　四.用戶表現：行為VS言語

　　在可用性測試中強調對用戶操作行為的關注，是毋庸置疑的。因為：

　　1.用戶的行為指標更明確、具體、客觀，易觀察和記錄。

　　2.如果完全把關注點放在用戶的操作行為上，那么就無需跟用戶進行多余的(指導語之外的)語言交流。類似于心理學研究規范，對實驗或測試中的指導語進行統一，對一切無關變量(包括主試的語言、體態表情)進行控制，以減少對研究過程的干擾。

　　3.即便你直接詢問用戶某些問題，也極可能得到錯誤的答案。30年前Richard Nisbett和Timothy Wilson的實驗、2年前Peter Johansson在《science》的文章，都證實了某些情況下人們無法解釋清楚自己行為的真正原因。另外，用戶還可能揣摩主試的喜好，回答他們認為主試期望的答案。

　　因此，有必要強調在可用性測試過程中關注的重點永遠應該是用戶的操作行為，而且盡量減少任何無關變量的干擾。但這個原則被有些人引申到極端，認為只有觀察用戶的操作行為才有意義，其他信息都是無需關注的，甚至輕率地懷疑用戶的話都是不可信的。

原文轉自：http://www.anti-gravitydesign.com

軟件測試 > 測試技術 > 功能測試 >