图灵测试,测的到底是什么?

发表于:2016-03-23来源:软件质量报道作者:Ent点击数: 标签:软件测试基础
这是一篇2014年6月10日发表在《科学人》的一篇文章,今天转发给大家,也算是对昨天我的文章“如何测试人工智能软件?”的补充阅读。艾伦.图灵是计算机先驱、人工智能之父,图灵奖

  [这是一篇2014年6月10日发表在《科学人》的一篇文章,今天转发给大家,也算是对昨天我的文章“如何测试人工智能软件?”的补充阅读。艾伦.图灵是计算机先驱、人工智能之父,图灵奖,被誉为计算机界的诺贝尔奖]

  2014年6月7日发生了一件事情:聊天程序“尤金·古斯特曼”(Eugene Goostman)在英国皇家学会举行的2014图灵测试大会上冒充一个13岁乌克兰男孩而骗过了33%的评委,从而“通过”了图灵测试

  尤金的在线对话页面,不幸的是因为这一事件给服务器带来的压力,该网站已经几天无法访问了……

  但是,通过了测试又怎么样呢?说明了什么问题呢?

  图灵测试

  1950年,阿兰·图灵在那篇名垂青史的论文《计算机械与智力》的开篇说:“我建议大家考虑这个问题:‘机器能思考吗?’”但是由于我们很难精确地定义思考,所以图灵提出了他所谓的“模仿游戏”:

  一场正常的模仿游戏有ABC三人参与,A是男性,B是女性,两人坐在房间里;C是房间外的裁判,他的任务是要判断出这两人谁是男性谁是女性。但是男方是带着任务来的:他要欺骗裁判,让裁判做出错误的判断。

  那么,图灵问:“如果一台机器取代了这个游戏里的男方的地位,会发生什么?这台机器骗过审问者的概率会比人类男女参加时更高吗?这个问题取代了我们原本的问题:‘机器能否思考?’”而这,就是图灵测试的本体。

  图片来源:BBC

  ……等等,那现在这帮人在搞的图灵测试又是什么啊。

  其实你可能已经注意到了图灵的真正目的。不是说“思考”没法定义吗?没关系,我们不去纠缠哲学,我们来制造一个可操作的标准。如果这台机器“表现得”和一个思考的人类(人类是会思考的,对吧?)无法区分,那么我们就大可把它当做是在“思考”。

  当然,有些方面机器很难表现得和人类一样,比如有血有肉——但是既然我们关注的是思考,那么就可以选择一个有代表性的领域,图灵选择的就是“模仿游 戏”。在原论文中图灵建议,要求也不必太高,假如能判对的裁判人数不到70%(我认为这个数字也只是他的随口一说),那我们就可算是它成功了。

  而到了1952年,在一场BBC广播中,图灵谈到了一个新的具体想法:让计算机来冒充人。如果不足70%的人判对(也就是超过30%的裁判误以为在和自己说话的是人而非计算机),那就算作成功了。

  可以看到,图灵测试的核心其实不是“计算机能否和人对话”,而是“计算机能否在智力行为上表现得和人无法区分”。冒充异性和冒充人类都不过是特例而已。

  不过这个1952年版的图灵测试在后世被发扬光大,成了今天我们所知的图灵测试的唯一方法。这就带来了一些问题。

  中文屋子

  图灵测试自诞生以来产生了巨大的影响力,不光有支持,也少不得批评。其中最重要的批评之一,可能是1980年约翰·塞尔在《心智、大脑和程序》一文中提到的中文屋子思想实验了。

  塞尔说,想象他锁在一间屋子里,手动模拟一个巨大的AI程序,和外界进行中文的对话。这个程序据说是“懂中文”的——至少,能以中文通过图灵测试。 屋子里除了一堆纸(塞尔的原话是“bits of paper”)上写着运算的规则之外,别无他物。(好吧,为了人道起见也许应当添加基本的卫生设施……)

  图片来源:rationallyspeaking.blogspot.com

  塞尔不懂中文,在屋子里摆弄符号显然也无助于他习得中文,屋子里也没有别的东西理解中文了。如果塞尔不“理解”中文,那么塞尔加上这堆纸也不能说是“理解”中文吧!虽然屋子的中文水平足以骗过中文使用者,但没有任何实体真的“理解”发生了什么。

  换言之,所谓的图灵测试也是没有用的,就算通过了它也不能表明计算机在思考。

原文转自:http://www.testwo.com/article/620