11.4 图灵 | “图灵测试”：机器也会思考吗？

作者：刘伟

2020-09-06·阅读时长6分钟

25334人看过

11.4 图灵 | “图灵测试”：机器也会思考吗？

16.4MB

00:0011:58

三联中读的朋友们，大家好，我是刘伟。欢迎和我一起走进“20世纪十大思想家”。在上一节中，我们说了西方智能科学的起源与发展，这一节，我将为大家讲讲何谓“图灵测试”以及它的意义和重要性。

何谓“图灵测试”？

图灵提出了一种测试机器是不是具备人类智能的方法，即“图灵测试”，他假设有一台电脑，运算速度非常快、记忆容量和逻辑单元的数目也超过了人脑，而且还为这台电脑编写了许多智能化的程序，并提供了合适种类的大量数据，那么，是否就能说这台机器具有思维能力？

图灵肯定机器可以思维的，他还对智能问题从行为主义的角度给出了定义，由此提出一假想：即一个人在不接触对方的情况下，通过一种特殊的方式，和对方进行一系列的问答，如果在相当长时间内，他无法根据这些问题判断对方是人还是计算机，那么，就可以认为这个计算机具有同人相当的智力，即这台计算机是能思维的。这就是著名的“图灵测试”（Turing Testing）。当时全世界只有几台电脑，其他几乎所有计算机根本无法通过这一测试。

“图灵测试”示意图，图片来自网络

这个问题到了今天来看，变得非常棘手。为什么？因为现在计算机非常多，而且比如“阿尔法狗”（AlphaGo）已经战胜了人类，像“深蓝”也在国际象棋中战胜了人类，这种测试在某个角度已经突破了图灵测试。

要分辨一个想法是“自创”的思想还是精心设计的“模仿”是非常难的，任何自创思想的证据都可以被否决。图灵试图解决长久以来关于如何定义思考的哲学争论，他提出一个虽然主观但可操作的标准：如果一台电脑的表现（act）、反应（react）和互相作用（interact）都和有意识的个体一样，那么它就应该被认为是有意识的。

为了消除人类心中的偏见，图灵设计了一种“模仿游戏”即图灵测试：远处的人类测试者在一段规定的时间内，根据两个实体对他提出的各种问题的反应来判断是人类还是电脑。通过一系列这样的测试，从电脑被误判断为人的几率就可以测出电脑智能的成功程度。

图灵采用“问”与“答”模式，即观察者通过控制打字机向两个测试对象通话，其中一个是人，另一个是机器。要求观察者不断提出各种问题，从而辨别回答者是人还是机器。图灵还为这项测试亲自拟定了几个示范性问题：

问：请给我写出有关“第四号桥”主题的十四行诗。

答：不要问我这道题，我从来不会写诗。

问：34957加70764等于多少？

答：（停30秒后）105721

问：你会下国际象棋吗？

答：是的。

问：我在我的K1处有棋子K；你仅在K6处有棋子K，在R1处有棋子R。轮到你走，你应该下哪步棋？

答：（停15秒钟后）棋子R走到R8处，将军！

图灵指出：“如果机器在某些现实的条件下，能够非常好地模仿人回答问题，以至提问者在相当长时间里误认它不是机器，那么机器就可以被认为是能够思维的。”

从表面上看，要使机器回答按一定范围提出的问题，似乎没有什么困难，可以通过编制特殊的程序来实现。然而，如果提问者并不遵循常规标准，编制回答的程序是极其困难的事情。例如，提问与回答呈现出下列状况：

问：你会下国际象棋吗？

答：是的。

问：你会下国际象棋吗？

答：是的。

问：请再次回答，你会下国际象棋吗？

答：是的。

你多半会想到，面前的这位是一部笨机器。如果提问与回答呈现出另一种状态：

问：你会下国际象棋吗？

答：是的。

问：你会下国际象棋吗？

答：是的，我不是已经说过了吗？

问：请再次回答，你会下国际象棋吗？

答：你烦不烦，干嘛老提同样的问题。

那么，你面前的这位，大概是人而不是机器。上述两种对话的区别在于，第一种可明显地感到回答者是从知识库里提取简单的答案，第二种则具有分析综合的能力，回答者知道观察者在反复提出同样的问题。“图灵测试”没有规定问题的范围和提问的标准，如果想要制造出能通过试验的机器，以我们的技术水平，必须在电脑中储存人类所有可以想到的问题，储存对这些问题的所有合乎常理的回答，并且还需要理智地作出选择。

测试人工智能系统是否具有智能，最著名的方法是”图灵测试“。1950年，图灵发表论文《Computing Machinery and Intelligence》提出了“机器思维”的概念，图灵在论文中这样定义图灵测试：“我们称下面这个问题为“模仿游戏”。游戏参与者包括一个男人，一个女人，以及一个任意性别的询问者。询问者与另两个人待在不同的房间里，并通过打字的方式与他们交流，以确保询问者不能通过声音和笔迹区分二者。两位被询问者分别用X和Y表示，询问者事先只知道X和Y中有且仅有一位女性，而询问的目标是正确分辨X和Y中哪一位是女性。另一方面，两位被询问者X和Y的目标都是试图让询问者认为自己是女性。也就是说，男性被询问者需要把自己伪装成女性，而女性被询问者需要努力自证。现在我们问：如果我们把“模仿游戏”中的男性被询问者换成计算机，结果会怎样？相比人类男性，计算机能否使询问者更容易产生误判？”。

“机器”和“智能”

图灵测试并没有定义智能的范畴，而只能作为一个人工智能的充分条件，关于这一点，图灵在论文中写道：

“机器能否拥有智能，为了回答这个问题我们应该首先定义’机器’和‘智能’。一种可能性是根据大多数普通人的日常理解去定义这两个概念，但这样做是危险的。在这里我并不打算定义这两个概念，可能有人会说这项测试对机器而言过于严格——毕竟人类也无法反过来成功伪装成机器，这只需检查算术的速度和正确度即可辨别。例如2014年6月，英国雷丁大学客座教授凯文·沃维克宣称一款名为“尤金·古特曼(Eugene Goostman)”的计算机软件通过了测试，但是测试结果充满争议，这个计算机软件通过扮演一名年仅13岁，且第二外语为英语的男孩，让参与测试的裁判大幅度降低了测试难度，因此测试结果充满了争议。

英国雷丁大学客座教授凯文·沃维克

中国科学院自动化所研究员王飞跃在“关于人工智能九个问题”中也对图灵测试存在的问题进行了讨论，他的意见主要有以下两点：

人类的智能并不是一个单一的对象，而是由多个类别组成，同样人工智能对应也是多类别组成。图灵测试究竟测试的那些类别并不明确，从实践上看，目前图灵测试仅仅局限在语言智能等特定小领域里，并不具备代表性。

图灵测试并不是考官对一台计算机测试后就可以宣布其是否拥有智能，图灵测试的本意是指一个广义的人类作为整体的考官，其测试的时间段也不是具体的一段时间而是广义的时间段，即所有的人类在所有时间都分辨不出人与机器之后，才算其人类智能与人工智能等价。

从上述讨论可以看出，图灵实验只对人工智能系统是否具有人类智能回答“是”或“否”，并不对人工智能系统的发展水平进行定量分析，而且测试的智能或智力种类还过于单一；在测试方法上存在漏洞，容易被测试者找到漏洞从而产生作弊行为。总的来说，图灵实验目前还无法承担定量分析智能系统智力发展水平的需求。

图灵预言，在20世纪末，一定会有电脑通过“图灵测试”。2014年6月7日在英国皇家学会举行的“2014图灵测试”大会上，举办方英国雷丁大学发布新闻稿，宣称俄罗斯人弗拉基米尔·维西罗夫（Vladimir Veselov）创立的人工智能软件尤金·古斯特曼（Eugene Goostman）通过了图灵测试。虽然“尤金”软件还远不能“思考”，但也是人工智能乃至于计算机史上的一个标志性事件。

好的，本节内容就到这里，下一节我将为大家介绍图灵如何破译密码、扭转战争局面。

欢迎转发海报

开启对未来世界的畅想