繼續討論可用性測試中各種原則的靈活運用和注意事項。
五.發現問題:真的 VS 假的
判斷發現問題的真假,初看上去似乎不是個困難。多數或全部參與者都遇到的問題毫無疑問是明顯的可用性問題?;蛟S有人會建議,根據參與者中發現該問題的人數比例來判斷:比例高是真問題,比例低是假問題。前半句話可以接受,后半句話則有待商榷。
雖然可用性測試是相對嚴謹的用戶研究方法,但是其對無關變量控制的嚴格程度和真正的心理學實驗還是有一定的差距;并且心理學實驗對每組參與者數量的最低要求是30人,這樣得出的結論(數量比例)才具有推論至一般的意義。而可用性測試一般才8人左右的參與人數(盡管招募的參與者在質的方面非常具有代表性),但卻無法把可用性測試中出現的所有數量比例簡單推論至一般。8個參與者中有1人發現某個問題,不代表現實中出現同樣問題的真實用戶只有12.5%,更不代表這個問題不是真正的/嚴重的可用性問題。
問題的真假除了根據問題出現的次數比例,還有很重要的考慮點是:用戶“錯誤行為”背后的認知/思考方式是否合乎邏輯?
這里順便借用一下諾曼《設計心理學》里談到的理論:概念模型――系統表象――心理模型。概念模型可認為是產品設計人員對產品的設計思想;系統表象可認為是產品展現出的交互界面;而心理模型則是用戶按照既往經驗對如何操作該產品的設想。從這個角度來認識,可用性問題則是“概念模型、系統表象、心理模型”三者的不吻合或矛盾。
通過分析用戶行為背后的認知是否符合邏輯,來判斷發現的問題的真假,主要體現在以下幾點:
1.“概念模型、系統表象”的不一致
產品設計人員突然發現,界面的交互形式根本沒有反映出他原先的設計思想!
2.“系統表象、心理模型”的不一致
(1)用戶的思維方式受已有的同類產品的影響,并內化接受,而新產品的“系統表象”和已有同類產品并不一致。
(2)用戶在日常生活經驗中形成了許多并不科學地通俗理解世界的方式(比如通俗物理學、通俗心理學),但產品設計人員沒有意識到用戶在以這樣一種“自認正確”的錯誤方式來理解和使用產品。
如果發現的可用性問題屬于以上情況,那么即使只有一個參與者碰到,它也非??赡苁且粋€真正的可用性問題。
例如:讓用戶登錄購彩網站,查看自己上次購彩結果。大多數用戶點擊【個人中心】去查看,有2個用戶點擊【開獎公告】去查看,發現只有開獎號碼,沒有任何購彩結果信息后,再去點擊【個人中心】。僅2個人出現了稍微的偏差,而且很快就找到了正確的頁面,這貌似應該不算什么問題。
但若追究其行為背后的邏輯,并與其他用戶的反饋(“我上次買的號碼沒有直接顯示出來?”“這里看不到開獎的號碼啊?”)聯系起來,可以判斷用戶的心理模型和產品的系統表象不一致。用戶希望能同時對照著開獎號碼和自己買的號碼很方便地核對,而網站卻割裂兩部分放在不同的頁面,因此需要將這2個用戶碰到的問題當作真正的可用性問題來對待。
六.研究方法:定性 VS 定量
可用性測試,很多時候被認為是一種定性研究方法;但也有人說它是一種定量研究方法。究竟是怎么回事呢?
個人認為,可用性測試實質上結合了定性和定量兩種方法的特點,到底哪種成分更多,要看你的使用目的以及細節上如何操作。
定量研究的思路是基于對一定數量樣本的測量,以將研究所得的結論推廣至總體。除了強調樣本的代表性,還對樣本的數量有具體的要求,同時會考慮抽樣誤差、置信度、置信區間的度量。并且定量研究過程中非常注重對某些自變量操控、及無關變量的控制。
而定性研究重視對主觀意義的理解(如背后隱藏的原因),采用解釋建構的方法,比如訪談法等。
平時工作中以“形成式可用性”測試為主,即便它稍微偏向于定性研究,但在允許的范圍內,我個人還是盡可能地遵循著定量研究的方法去實施。這樣整個測試過程的嚴謹性能得到保證,結論的客觀程度相對更高(近幾個世紀來,量化研究一直是科學研究的主要范式,也正是這個原因)。具體做法如下:
1.在任務的設置上:因為參與者可能存在差別較大的亞群體,不可能要求完成完全相同的任務。但必定會設置大部分基本的、都需要完成的公共任務,再針對不同亞群體設置少量的特殊任務。在后期統計分析的時候,基本的公共任務則可以進行數量化的統計,并橫向比較。
2.在測試過程中:關注參與者完成任務時的相關行為,用數字來記錄(以0、0.5、1分別表示失敗、幫助/提示下成功、成功)。主試盡量少地言語及體態姿勢的干擾,只在必要時進行適當地言語交流。
3.在報告呈現:對任務完成情況(效率、完成率)統計呈現,對不同任務的完成情況進行比較,對亞群體間的任務完成情況進行比較,對所有可用性問題按數量化指標進行排序等?;蛘弑容^迭代前后獨特問題的頻次是否減少,以及嚴重程度高的等級里面可用性問題數量的變化情況。
4.測試過后,我們通常還會收集用戶自我報告式的數據,作為“感知可用性”的一個總體反映。
(1)推薦使用系統可用性量表(SUS),因為有研究表明SUS在少量樣本時即可產生較為一致的評分結果。
(2)為減少用戶在填寫這些量表時的反應心向,不要求填寫任何個人信息,且主試最好暫時回避。
(3)只統計分析所有參與者SUS量表總分的平均值,切勿再拆分比較亞群體之間的差異,因為即便信效度再高的量表,當樣本量極小時都會變得很不靠譜!
七.問題優先級:單指標 VS 多指標
除了在可用性測試過程中,最終報告也必須體現出量化、客觀地特點。例如,報告發現的可用性問題的列表,我也會以量化的方式排列出問題的優先級別。
原文轉自:http://blogread.cn/it/article/5764?f=sa