圖靈測試，測的到底是什么?(3)_軟件測試工程師入門

圖靈測試，測的到底是什么?(3)

發表于：2016-03-23來源：軟件質量報道作者：Ent點擊數：標簽：軟件測試基礎

不過上面的論證其實都有一個麻煩。這些說的都是理想的圖靈測試，是1950年圖靈給出的最原始形態。而2014年6月7日這個聊天程序通過的那個圖靈測試，和

　　不過上面的論證其實都有一個麻煩。這些說的都是理想的圖靈測試，是1950年圖靈給出的最原始形態。而2014年6月7日這個聊天程序通過的那個“圖靈測試”，和1950年圖靈心中的那個測試，并不完全是一回事。

　　聊天機器人的“圖靈測試”

　　如果你剛才幾部分的內容沒忘光，可能還會記得，我們反復強調了圖靈測試的準則是“計算機在智力行為上表現得和人無法區分”。

　　但是現實中真要測的話總得有規章，而英國皇家學會的測試規矩是，在一系列時長為5分鐘的鍵盤對話中，某臺計算機被誤認為是人類的比例超過30%，那么這臺計算機就被認為通過了圖靈測試。尤金在2014年的成績是在總計150場對話里騙過了30個評委里的10個，比兩年前提高了4個百分點(所以嚴格來說，并不是發生了什么大突破，只是在改良的過程中跨越了一個武斷的閾值)。

　　麻煩來了：尤金的設計思路并不是“一臺在智力行為上表現得和人無法區分”的機器，而是一臺“能夠在5分鐘長度對話內盡可能騙過人類”的機器。

　　經濟學有個所謂的古德哈特定律：一項指標一旦成為政策制定的依據，便立刻不再有效。政策制定者會犧牲其他方面來強化這個指標，使得這個指標不再具有指示整體情況的作用(原來軟件度量失效，也是這經濟學定律的魔力)。類似的道理勉強也可以套用到別的領域里。某種意義上尤金·古斯特曼就是例證——它不但是專門設計的聊天機器人、缺乏任何其他領域的智力能力，而且為了騙過人類，還被特意設定成一個13歲的非英語母語的小孩，以便在很多問題無法回答或者出現錯誤的時候，讓裁判誤以為這是因為它年齡小，而非因為它欠缺人性。

　　其實在聊天機器人里尤金已經不錯了，至少它沒有話題限制。早年間一個著名的聊天程序ELIZA的一個腳本是冒充一位精神分析師，如果病人說“我頭疼”，它就會回以“你為什么說你頭疼?”在這個子領域里它頗為逼真——可是這實在不能認為是表現出了類似人的智力活動。推特上曾有一個賬號叫 @AI_AGW，尋找那些氣候變化懷疑論者的言論然后給他們發科學論文鏈接辯論，有些懷疑論者根本沒意識到這是AI，雙方可以大戰幾十回合。網友們還開發出了“女神AI”、 “高冷AI”、“二逼AI”等等形態對其進行戲仿——但這些恐怕都不是圖靈當初設想的人工智能形態。當然更不是科幻愛好者恐懼(或者盼望)的天網覺醒。

　　也許要這樣的人工智能才更接近圖靈的本意吧……

　　圖片來源：xkcd，漢化：Ent

　　無論是尤金的編寫者還是程序的組織者，對此倒也心知肚明。編寫者弗拉基米爾·維西羅夫說，“我們希望能借此激發人們對人工智能與聊天機器人的興趣。”而組織者凱文·沃里克說，計算機冒充人會帶來網絡安全的問題，“理解這類實時在線交流如何讓人們對某些事信以為真并對他們造成影響，是非常重要的事情。”沒有人真的提到圖靈測試本來的那個意義——判斷計算機是否在思考;因為這也的確不是本來的那個圖靈測試。

　　有一些人認為現在的整個人工智能領域都背離了初衷，比如侯世達。另一些人則認為圖靈測試根本是無聊和過時的，和AI沒有關系。有些人覺得現在的人工智能思路毫無問題，假以時日就能做出好用的AI。還有一些人認為強AI 根本就是不可實現的。作為一個旁觀者，我肯定無力判斷哪幾種觀點是對的，但從個人來說，我是真的希望能出現一個程序，以原本的意義通過圖靈測試的最初版 ——不光是為了計算機和人工智能的進展，也是為了理解我們自身的大腦。說到底，要弄懂一臺機器的運作方式，還有什么辦法比拆開來再裝回去更好的呢

　　如還有時間，還可以看看其它文章：

　　圖靈測試與人工智能

　　人工智能≠類人智能：超越圖靈測試的世界觀

　　一個故意不通過圖靈測試的人工智能

　　《一個故意不通過圖靈測試的人》-第2部分

　　人工智能統治人類?反圖靈測試在發展

原文轉自：http://www.testwo.com/article/620

軟件測試 > 測試技術 > 軟件測試工程師入門 >