图灵测试的意义,或者说人们使用图灵测试想达到的目的更合适,那就是检验人工智能是否具备了智能。
如果通过了测试,就说明这个人工智能拥有了人类智能。
图灵测试就像是“人类智能大学”的入学考试,过了就能进入“人类智能的大学”。
那这个“入学考试”都考些啥呢?所谓图灵测试,最初就是测试人通过装置向互相隔离的人和机器随意提问。
如果让超过 30% 的答复让测试人不能确认回答者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。
后来人们会调整入学考试的试题,但大致都是一样的,主要目的就是:如果人工智能骗过人,那测试就成功了。
那现在有人工智能通过了这个“入学考试”吗?就在2014年,名为“尤金•古斯特曼”的人工智能软件,通过图灵测试。
那通过了图灵测试就真的有了思考能力了吗?但其实“尤金”软件并没有思考能力。
当然也就没有智能了,通过测试只能说明其具备了基本沟通交流的能力,距离真正的智能还差得很远。
这么看,如果想进入“人类智能大学”,图灵测试这个“入学考试”其实也不权威,所以最近人工智能这么火,也没有都去做图灵测试,还不如下下棋来的震撼,比如AlphaGo。
究其根本是人类连自己大脑思考的原理都还没搞清楚,更别说找到确切的方法来检验机器能否思考、具有智能了。
机器真的有可能拥有思考能力吗?这个问题就会分派别了,很多人对人工智能充满信心,甚至心生忌惮。
比如特斯拉创始人马斯克,就多次发表“人工智能很危险”“迟早会替代人类”等言论。
而有的人则认定机器无论如何都不会产生思考能力的。
哲学家约翰•希尔勒提出“中文房间”的思想实验来反驳机器能够具有思考能力。
所谓中文房间,是在一个封闭的房间里,完全不懂中文的人,只需要一本万能中文翻译书,通过中文字条和门外中国人交流,就能使门外中国人确信他很懂中文。
同理,机器只是在运行程序,仅仅看起来像具有智能。
所以有时候也会想一个问题,那我们人类,是不是也仅仅是看起来像具有智能呢?
今天我想跟大家说一说“图灵测试”1950年,阿兰·图灵在那篇名垂青史的论文《计算机械与智力》的开篇说:“我建议大家考虑这个问题:‘机器能思考吗?’”但是由于我们很难精确地定义思考,所以图灵提出了他所谓的“模仿游戏”。
具体就 *** 作层面来说,图灵在他的论文原文中是这样定义图灵测试的:游戏参与者包括一个男人,一个女人,以及一个任意性别的询问者。
询问者与另两个人待在不同的房间里,并通过打字的方式与他们交流,以确保询问者不能通过声音和笔迹区分二者。
两位被询问者分别用X和Y表示,询问者事先只知道X和Y中有且仅有一位女性,而询问的目标是正确分辨X和Y中哪一位是女性。
另一方面,两位被询问者X和Y的目标都是试图让询问者认为自己是女性。
也就是说,男性被询问者需要把自己伪装成女性,而女性被询问者需要努力自证。
现在我们问:如果我们把“模仿游戏”中的男性被询问者换成计算机,结果会怎样?相比人类男性,计算机能否使询问者更容易产生误判?”这里有几个细节值得注意,它们在很大程度上决定了图灵测试的有效性。
(1)首先,图灵测试中询问者与被询问者之间进行的并不是普通的日常聊天,询问者的问题是以身份辨别为目的。
这种情况下询问者通常不会花费时间寒暄和拉家常,而是会开门见山地说“为了证明你的身份,请配合我回答下面问题…”。
事实上,目前网络上聊天机器人有时能够以假乱真,往往是采用了在用户在不知情的情况下尽量把谈话引到没有鉴别力的话题上的策略(例如“谈谈你自己吧”)。
(2)其次,图灵测试中人类被询问者的参与是必不可少的,她的存在是为了防止计算机采取“消极自证”的策略,例如拒绝正面回答问题,或者答非所问闪烁其词,就像一个真正的不合作的人所做的一样。
在这种情况下,另一个积极自证的人类被询问者可以保证询问者总是有足够的信息做出判断。
类似的情况也适用于当计算机试图模仿正在牙牙学语的幼童或头脑不清的病人等“特殊人类”时。
(3)另外,图灵测试的原则是要求询问的交互方式本身不能泄露被询问者的物理特征。
在图灵所处的年代这几乎只能全部通过基于文本的自然语言来完成,因此图灵限定测试双方基于打字进行交流。
但在多媒体技术发达的今天,视频、音频、图片等等“虚拟内容”都可以通过计算机以非物理接触的形式呈现(这当然是60年前的图灵不能预知的!)。
因此,允许询问者在图灵测试中使用多媒体内容作为辅助材料进行提问(例如“请告诉我这个视频的笑点在哪儿”)似乎是对原始图灵测试定义的一个自然合理的补充。
(4)最后,今天一般意义上理解的图灵测试不再严格区分人类参与者的性别。
通常我们允许人类被询问者是任意性别,而询问者的目标也随之变成辨别哪一位被询问者是人类。
除此之外,完成一次具体的图灵测试还要注意很多 *** 作细节,例如多少人参与测试算“足够多”,多长的讯问时间算“足够长”,多高的辨别正确率算“足够高”,如何挑选人类询问者和被询问者才能代表“人类”的辨别和自证能力,等等。
由于图灵测试的巨大影响力,几十年来一直有人尝试挑战它,不时就会传出“某某计算机程序成功通过图灵测试”的消息。
我想,正是对于意义深远的实验,我们才理应格外审慎。
只有在仔细检查上面所列和其他一些重要细节之后,我们才能对其结果的有效性做出正确判断。
图灵还为这项测试亲自拟定了几个示范性问题:问: 请给我写出有关“第四号桥”主题的十四行诗。
答:不要问我这道题,我从来不会写诗。
问:34957加70764等于多少?答:(停30秒后)105721问:你会下国际象棋吗?答:是的。
问:我在我的K1处有棋子K;你仅在K6处有棋子K,在R1处有棋子R。
轮到你走,你应该下哪步棋?答:(停15秒钟后)棋子R走到R8处,将军!图灵指出:“如果机器在某些现实的条件下,能够非常好地模仿人回答问题,以至提问者在相当长时间里误认它不是机器,那么机器就可以被认为是能够思维的。
”从表面上看,要使机器回答按一定范围提出的问题似乎没有什么困难,可以通过编制特殊的程序来实现。
然而,如果提问者并不遵循常规标准,编制回答的程序是极其困难的事情。
例如,提问与回答呈现出下列状况:问:你会下国际象棋吗?答:是的。
问:你会下国际象棋吗?答:是的。
问:请再次回答,你会下国际象棋吗?答:是的。
你多半会想到,面前的这位是一部笨机器。
如果提问与回答呈现出另一种状态:问: 你会下国际象棋吗?答:是的。
问:你会下国际象棋吗?答:是的,我不是已经说过了吗?问:请再次回答,你会下国际象棋吗?答:你烦不烦,干嘛老提同样的问题。
那么,你面前的这位,大概是人而不是机器。
上述两种对话的区别在于,第一种可明显地感到回答者是从知识库里提取简单的答案,第二种则具有分析综合的能力,回答者知道观察者在反复提出同样的问题。
“图灵测试”没有规定问题的范围和提问的标准,如果想要制造出能通过试验的机器,以我们的技术水平,必须在电脑中储存人类所有可以想到的问题,储存对这些问题的所有合乎常理的回答,并且还需要理智地作出选择。
那么人工智能如此发达的今天,是否有人通过了图灵测试呢?答案是有的。
2014年6月7日发生了一件事情:聊天程序“尤金·古斯特曼”(Eugene Goostman)在英国皇家学会举行的2014图灵测试大会上冒充一个13岁乌克兰男孩而骗过了33%的评委,从而“通过”了图灵测试。
你肯定还想问,Siri有没有通过图灵测试呢?答案是没有。
看来Siri还有很长的路要走啊!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)