阿兰·图灵于1936年创立了经典计算理论,并于第二次世界大战期间帮助建造了最早的经典通用计算机之一。称他为现代计算之父,是十分恰当的。巴贝奇理当被称为现代计算的祖父,不过图灵与巴贝奇和洛夫莱斯不同,他非常清楚,由于通用计算机是通用模拟器,因此人工智能(AI)原则上是可以实现的。1950年,他在一篇题为《计算机械和智能》的论文中,对“机器能思考吗 ”这个问题进行了著名的探讨。他不仅根据通用性为机器能思考这一主张进行了辩护,还提出了一个用来检验程序是否能思考的测试方法。该方法现在称为图灵测试,它十分简单,就是让一个合适的(人类)裁判去判断该程序是不是人类。在这篇论文以及此后的文章里,图灵概述了进行这项测试的规程。例如他提议,接受检验的程序和一名真人应当分别通过电传打字机之类的纯文本媒介与裁判互动,从而只检验受试者的思考能力,不涉及其外表。

图灵的测试方法和他的论述使许多研究者陷入思考,不仅思考图灵是否正确,还思考怎样通过这项测试。人们开始编制程序,以研究通过图灵测试需要些什么。

1964年,计算机科学家约瑟夫·魏岑鲍姆写了一个叫Eliza的程序来模仿心理医生。他认为心理医生是一类特别容易模仿的人,因为程序可以给出关于自身的含糊答案,并且只根据用户自己的问题和陈述来提出问题。它是一个非常简单的程序。现在,这类程序仍然是非常受学生欢迎的编程项目,因为既有趣又容易写。一个典型的此类程序有两种基本策略。第一个策略是,它扫描输入内容,寻找特定的关键字和语法形式。如果这一步成功了,它就会根据一个模板作出回应,用输入内容里的词来填补模板中的空白。例如,如果输入内容是“我恨我的工作”,程序就能识别出句子的语法,其中包括所有格“我的”;也许还能识别出“恨”,这是内置列表“爱/恨/喜欢/不喜欢/想要”中的一个关键字。这样它就可以选择一个合适的模板,回应道“你最恨你的工作中的什么?”如果它没能对输入内容在语法上分析到这种程度,就会从库存模式里随机挑选一个来提出自己的问题,模式有可能与输入句子有关,也可能无关。例如,如果被问到“电视机怎样工作”,它也许会反问“‘电视机怎样工作’有什么有趣的地方”,或者就是问“你为什么对这个感兴趣”。第二个策略是Eliza程序最新的互联网版本所采用的,做法是将以前的对话建立数据库,使程序可以根据当前用户输入内容里的关键字,简单地重复其他用户输入过的语句。

许多人在使用Eliza时都被它蒙骗了,这让魏岑鲍姆感到十分震惊。因此,它通过了图灵测试,至少是最朴素版本的图灵测试。而且,就算人们得知它不是真正的人工智能,有时还是会继续就他们的个人问题与它聊很久,就好像相信它能理解他们一样。魏岑鲍姆写了一本书《计算机威力与人类理性 》(1976),警告了当计算机看起来表现出类人功能时的拟人化危险。

然而,在困扰人工智能领域的狂妄自大中,拟人化并不是最主要的一种。例如,道格拉斯·霍夫施塔特在1983年遭遇了一个由研究生们搞的友好骗局。学生们说服他相信,他们已经获得许可,能使用一个政府运行的人工智能程序,并邀请他对这个程序进行图灵测试。事实上,线路的另一头是其中一名学生在模仿Eliza程序。霍夫施塔特在其著作《超级魔幻王国》(1985)中写道,这名学生从一开始就对霍夫施塔特的问题表现出令人难以置信的理解程度。例如,起初有一段对答是这样的:

霍夫施塔特:耳朵是什么?

学生:耳朵是动物身上的听觉器官。

这可不是词典里的定义。所以,肯定有什么东西 用一种能把“耳朵”同大多数其他名词区分开来的方法,对这个词的意义进行了处理。任何一段这样的对答,都很容易用运气来解释:可能是问题与程序员提供的模板之一相匹配,该模板里包含了关于耳朵的特定信息。但是,在就不同的话题用不同的语句进行了好几段对答之后,运气就成了一个很坏的解释,游戏该结束了。但是没有结束。于是这名学生的答复变得更加肆无忌惮,直到最后他直接开起了霍夫施塔特的玩笑——这一点让他败露了。

霍夫施塔特说,“现在回想起来,我当时愿意相信程序里植入了多少真正的智能,真是太让人惊奇了……很显然,我当时愿意相信,在当今时代只要把一大堆孤立的技巧和凑合方案堆在一起,就能获得极大的可变性。”事实是(仅仅是这个事实就应当让霍夫施塔特感到警惕),Eliza诞生之后19年,还没有哪个类似Eliza的程序能够比它的原始版本更像一个人,哪怕只是更像一点点。虽然这些程序能更好地组织语句,有更多的预设问答模板,但这几乎无助于就多种多样的主题进行广泛的谈话。此类模板的输出结果仍然与人类思考成果相似的可能性,随着话语数量的增加呈指数递减。因此,霍夫施塔特本应该很快就断定,受试者通过了图灵测试,并且由于它完全不像Eliza ,这必定是一个伪装成计算机程序的人。

又过了26年之后的今天,新写出的计算机程序在“显得在思考”的任务上仍然并不比Eliza 更强。现在这些程序称为“聊天机器人”,其主要功能仍然只是娱乐,有的直接应用,有的用在电脑游戏里。它们还用来给怎样操作电脑之类的话题的“常见问题”列表提供看上去较为友好的使用界面。但我觉得,用户很快就会发现,这些程序并不比一个可搜索的问答列表更有用。

1990年,发明家休·勒伯纳捐资设立了一个通过图灵测试的奖项,通过年度竞赛来评选。在有计算机程序通过图灵测试之前,每年都会给最接近于通过测试的参赛者颁发一个次等奖项。这个测试比它乍看起来更难实施,其中一个问题是,让计算机程序假装成人类,这种要求既有偏见,也与它是否能思考并无关系。但是,如果它不假装成人类,那不管它有没有思考能力,都会很容易被认出是一台计算机。与此相关的一个难题是,参加测试的人类可能有意假装成聊天机器人,就像霍夫施塔特遇到的骗局那样,从而毁掉这场测试,因为测试的基础是对人类和聊天机器人进行比较。为了减轻前一个问题的影响,规则是否还应该允许人类这样假装?

不幸的是,这些微妙之处与当前的技术发展水平并无关系。以下记录很好地反映了这一点,这是Elbot 程序在2008年获得(次等的)勒伯纳奖时的对话:

裁判:你是否明白图灵测试的要点?

Elbot :有的人自己都通不过图灵测试,为什么要强迫电脑去测试呢?

裁判:我觉得(spose)这有点苛刻。

Elbot :如果我们机器人能结婚,必定忠贞不渝,“直到锈蚀将我们分开”。

在这段话中,Elbot 的第一句话不是对问题的回应,而应当是由关键词“图灵测试”触发的一个固定反应。接下来,裁判用了spose这个词,从上下文来看,它只应该是“觉得”(suppose)的意思(这要么是黑话,要么是打字错误)。但Elbot 大概把它解释成了“配偶”(spouse),就用预设的一个婚姻笑话来回应。因此,仅从这段交流就能很清楚地看出,Elbot 并没有在处理裁判的语句的含义 。

裁判:你不跟我聊天的时候都做些什么?

Elbot :在买油的问题上我也有同样的麻烦。是该买特别油性的、超级油性的还是极其油性的,实在没办法搞明白。

裁判:你的事业如何?跟油有关系吗?

Elbot :那人类和职业又是怎样?他们对此的立场如何?

裁判善解人意地接上了Elbot 随机挑选的关于油的话题,但Elbot 忽视了这一点。相反,它检测到“事业(career)”这个关键字,将它转换成近义词“职业(occupation)”,然后塞进一个预设的句子模式。

在图灵的论文发表之后的58年里,人类在追寻“能思考的机器”方面取得的成果是:无。然而,在所有其他方面,计算机科学和技术在这段时间里都取得了惊人的进步。日渐减少的、认为人工智能不可能存在的那些人,无疑不会对这种失败感到意外,但他们的理由是错的,因为他们没有认识到通用性的重要之处。但是,最热情地认为人工智能就快要实现的那些人,则没有认识到这种失败的重要之处。有些人说,以上批评不公平,因为现代人工智能研究的重点并不是通过图灵测试,而且当前称为“人工智能”的许多专门应用领域都取得了巨大进步。然而,这些应用没有一个看上去像“能思考的机器” [1] 。其他人坚持认为,提出这样的批评为时过早,因为在该领域历史的大多数时间里,计算机的计算速度和存储容量与今天相比都低得可笑。因此,他们仍然期待着今后几年就会有突破。

但不会有的。情况并不像是说,有人写了一个聊天机器人程序,它能通过图灵测试,但目前算出每个答复要一年时间。如果是那样,人们会很高兴地等待。不管在什么情况下,如果有人知道怎样写一个这样的程序,就无须等待,其中原因我很快会讲到。

图灵在他1950年的论文中估计,一个人工智能程序要通过他的测试,程序连同所有数据需要的存储容量不会超过100兆,所用的计算机也不必比当时的计算机更快(当时的速度大概是每秒几千次计算),到2000年,“人们将能够谈论机器思考,不必担心会遭到反驳”。好吧,2000年来了又走了,我用来写这本书的笔记本电脑拥有的存储容量(算上硬盘空间)比图灵说的大一千倍,速度快100万倍(虽然从论文里看不出他对大脑的并行处理能力是怎样考虑的),然而它的思考能力并不比图灵的计算尺更高明。我跟图灵一样确信,这台计算机能够 通过编程具备思考能力,所需的资源可能跟图灵估计的一样少,虽然现在可用的资源比那高出几个数量级。但是什么样的程序才能做到这一点?为什么没有这样一个程序存在的迹象?

图灵所说的通用意义上的智能,是人类头脑的诸多属性之一,这些属性困扰了哲学家数千年,除智能外还包括意识、自由意志和意图等。其中典型的难题之一是感受性 (qualia,单数形式为quale),指感受的主观方面。例如,看到蓝色的感觉,就是一种感受性。考虑以下的思想实验:你是一位生化学家,不幸天生带有一个基因缺陷,它使视网膜上的蓝光受体失活。因此,你患有某种色盲,只能看到红色、绿色及它们的混合色,例如黄色,任何纯粹的蓝色在你看来都像是上述混合色的一种。随后你发现了一种治疗方法,能使蓝光受体开始工作。在对自己进行治疗之前,你可以很自信地预测,如果该疗法有用的话会发生什么情况。其中一种情况是,如果你举起一张蓝色的卡片进行测试,就会看到一种前所未见的颜色。你可以预测自己将把它称为“蓝色”,因为你已经知道这张卡片的颜色叫什么 (也已经可以用分光计检验它是什么颜色)。你还可以预测,当你痊愈后第一次看到白天的晴空时,会体验到一种跟看蓝色卡片相似的感受性。但这个实验的结果中有一样东西,是你和其他任何人都没有办法预测的,那就是:蓝色看起来是什么样。感受性既不可描述,也不可预测,它是一个独特的性质,会让任何有科学世界观的人深感困扰(虽然到头来似乎主要是哲学家在烦恼这个问题)。

我认为这是一个激动人心的证据,它显示有一个重大发现有待完成,该发现将把感受性之类的事物整合到我们的知识中去。丹尼尔·丹尼特得出了相反的结论,那就是:感受性不存在!严格说来,他的观点并不是说感受性是幻觉——因为某种感受性的幻觉就是这种感受性本身。他是说,我们有一个错误的信念 。我们的内省(即对自身经验的记忆 的检视,包括仅仅几分之一秒前的记忆)进化出来是为了报告说,我们体验到了感受性,但这是错误的记忆。丹尼特捍卫这一论点的著作中,有一本叫作《意识的解释 》,有些哲学家挖苦说,称其为《意识的否认 》会更准确。我同意他们的看法,原因是,虽然任何对于感受性的真正解释都必须能经得起丹尼特对感受性存在这种常识理论的批评,但直接否认感受性的存在将是一个坏解释:任何东西都可以通过这一方式被否决。如果它是真的,就必须用一个好解释来证明,该解释要说明这些错误信念看上去 与其他错误信念(比如大地在我们脚下静止不动)有什么本质区别,以及为什么有这样的区别。但对我来说,这个问题跟最原始的感受性问题又一样了:我们看上去拥有感受性;感受性是什么样的,这一点看上去不可能描述。

总有一天,我们会描述出感受性。问题是可以解决的。

顺便说一下,有些人类能力通常包含在与通用智能有关的诸多属性中,但它们并不属于智能。其中之一是自我意识 ,有些试验可以证明它的存在,比如认出镜子里面的自己。有些人在发现多种动物显得拥有这种能力时感到莫名惊诧,但其中没有什么神秘的:一个简单的模式识别程序就能使计算机拥有这种能力。使用工具、使用语言发出信息(虽然不能进行图灵测试意义上的对话)、多种情绪反应(虽然不是相关的感受性)也都是如此。该领域里当前有一条有用的经验法则:已经能够通过编程实现的东西,与图灵意义上的智能无关。反过来,我用一个简单的测试来检验那些声称解释了意识本性(或任何其他计算任务的本性)的主张,包括丹尼特的主张。这个测试就是:如果你不能编出程序来实现它,那就是没有理解它。

图灵发明了他的测试,希望绕过所有这些哲学问题。换句话说,他希望在解释这项功能之前就实现这项功能。不幸的是,在无法解释方案为何有效的时候就找到基本问题的实用解决方案,这种情形极为罕见。

然而,虽然图灵测试的思想 与经验主义有些相似,但不同的是,这种思想的确起到了有价值的作用。它使人们专注于解释通用性的重要之处,以及批评那些古老的以人类为中心的假说,这些假说否认人工智能实现的可能性。图灵自己在这篇开创性的论文中系统地驳斥了所有对人工智能的经典反对意见(此外还驳斥了一些荒谬的反对意见)。但他的测试源于一个经验主义者的错误,即寻找纯粹的行为标准:图灵测试要求裁判在不解释人工智能应当怎样运作的情况下作出结论。但是在现实中,判断某种东西是不是真正的人工智能,永远取决于有关人工智能怎样运作的解释。

这是因为,图灵测试中裁判的任务,与佩利走过他的荒野发现一块石头、一只手表或一个活的生物体时面临的任务有着相同的逻辑,那就是解释对象被观察到的特征是怎么来的。在图灵测试中,我们有意忽视了设计 这个对象的知识怎样创造出来的问题。测试只关系到谁设计了人工智能的话语 :谁使这些话语有意义——谁创造了它们里面的知识?如果是设计者创造了这些知识,那这个程序就不是人工智能。如果是程序自己创造了知识,那它就是人工智能。

这个问题有时候也出现在人类自己身上。例如,魔术师、政治家和考生们有时涉嫌通过隐蔽的耳机接收信息,然后机械地重复这些信息,同时假装这些信息源自他们自己的大脑。此外,当有人同意进行一个医疗程序时,医生必须确认他们不是仅仅在念念有词却不知道其中的含义。为了检验,可以换一个方式来问同样的问题,或者用类似的词语来问不同的问题,观察对方的回复是否会随之改变。在任何形式的自由对话中,这类情形都会自然发生。

图灵测试与此相似,但侧重点不同。对人类进行测试时,我们想知道对方是否是 一个完好无损的人(并且不是其他人的代言人)。对人工智能进行测试时,我们希望发现一种难以改变的解释,来说明为什么测试对象的话语不可能 来自任何人类,只可能来自人工智能。两种情况下,把与一个人说话作为实验的对照,都是没有意义的。

某个实体的话语是怎样创造出来的,如果对此没有好解释,观察这些话语就无益于了解这个问题。在最简单水平的图灵测试中,我们需要确信这些话语不是由一个假装人工智能的人类直接编造的,就像霍夫施塔特遇到的骗局那样。但骗局的可能性是最小的。我在前文中猜测,Elbot错误地识别出关键字“配偶”,从而复述了一个预设的笑话。但如果我们知道这不是 一个预设的笑话,因为程序里根本没有编码过这样一个笑话,这个笑话的意义就大不相同了。

我们怎么能知道这一点?只能通过一个好解释知道。例如,我们可能因为程序是自己写的所以知道。另一种途径是,程序作者向我们解释这个程序怎样运作——它怎样创造出包括笑话在内的知识。如果解释是好的,我们就应该知道这个程序是人工智能。事实上,如果我们只有 这样一个解释,还没有看到程序的任何输出结果——甚至程序还没有写出来——也仍然应该能得出结论说,它是一个真正的人工智能程序。因此,并不需要进行图灵测试。这就是我为什么说,如果计算机能力是实现人工智能的唯一障碍,则完全无需等待。

详细解释一个人工智能程序如何运作,可能复杂得棘手。实际上,作者的解释总是会在某种突现的、抽象的层次上。但这不妨碍它成为一个好解释。它无须描述编笑话的具体计算步骤,就好比进化论无须描述某个特定适应性的历史上每个具体的变异为什么成功或失败。考虑到程序的运行方式,相关解释只需说明事情可能 怎样发生,以及我们为什么预期它会发生。如果它是一个好解释,就能让我们相信,那个笑话——笑话里的知识——发源于程序,而不是程序员。于是,程序所说的话语,也就是那个笑话,要么是程序没有在 思考的证据,要么是程序在思考的证据,到底是哪一种,取决于有关程序如何运作的现行最好解释。

我们还不太了解幽默的本质,因此不知道编笑话是不是需要通用思考。可以想象,虽然可以用来编笑话的题材非常广泛,但其间应当存在隐藏的联系,能把所有编笑话的工作简化成单一狭窄的功能。这样的话,将来可能会出现不是人的通用编笑话程序,就像现在已经有了不是人的下象棋程序。这听起来不太可信,但由于我们没有好解释能排除这种可能性,就不能把编笑话当成评判人工智能的唯一途径。不过我们能做的是,就广泛的话题进行谈话,注意程序的话语在含义上是否适应相应目的。如果程序确实在思考,那么它在这种谈话的过程中会以无数不可预测的方式之一解释自身 ,就像你或者我会做的那样。

还有一个更深层次的问题。人工智能的能力必须具备某种通用性:特殊用途的思考不能算是图灵意义上的思考。我猜想,每个人工智能都是一个人,也就是一个通用解释者。可以想象,在人工智能与“通用解释者/建造者”之间还有其他层次的通用性,意识之类的相关属性可能有着独立的层次。但这些属性似乎全都在一次向通用性的跳转中出现在人类身上,而且,虽然我们几乎无法解释其中任何一种,但鉴于没有什么靠得住的论述表明它们处于不同层次或能彼此独立地实现,那就暂且认为它们不是这样的。不管怎样我们都应当预期,人工智能会通过一次向通用性的跳转来实现,从某种威力小得多的东西开始。相反,不完美地模仿人类的能力,或是执行特殊功能的能力,不是通用性的一种形式。这种能力能在不同程度上存在。因此,即使聊天机器人确实在某个时候开始变得特别擅长模仿人类(或蒙骗人类),这仍然不会是一条通往人工智能的道路。越来越擅长假装思考,与越来越接近于能够思考,并不是一回事。

有一个哲学流派,其基本信条是,以上两者是一回事。这种流派称为行为主义 ,就是运用在心理学上的工具主义。换句话说,这种学说认为,心理学只能或者只应该是行为的科学,不是思维的科学;只能测量和预测人的外部环境(“刺激”)与他们被观察到的行为(“反应”)之间的关系。不幸的是,后者正是图灵测试要求裁判看待受测试的人工智能的方式。因此,它鼓励这样一种态度:如果一个程序能够足够好地冒充人工智能,那就是实现了人工智能。但是非人工智能的程序终究不可能冒充人工智能,通往人工智能的道路不应当是让聊天机器人更有说服力的技巧。

行为主义者肯定会问:为聊天机器人提供极其丰富的技巧、模板和数据库,与对它赋予人工智能的能力,两者之间的区别到底是 什么?除了一堆此类技巧的集合,一个人工智能程序还能是什么?

在第4章中讨论拉马克主义时,我指出了肌肉在个体生涯里变得更强壮与肌肉进化 得更强壮之间的本质区别。对前者,在一系列变化开始发生之前,获得所有可能的肌肉力量的知识已经存在于个体的基因里。(关于怎样识别需要作出改变的环境的知识也应当这样存在了。)这正好对应着程序员植入聊天机器人的“技巧”:聊天机器人作出回应,“仿佛”它在编写回应时创造出了某些知识,但实际上所有的知识都是此前在别处创造出来的。物种的进化式变化,对应着人的创造性思想。认为人工智能可以通过积累聊天机器人的技巧来实现,这种观点对应拉马克主义。该理论认为,新的适应性可以通过实际上只是现有知识展示的变化来解释。

这样的误解在当前的几个研究领域中颇为常见。在基于聊天机器人的人工智能研究中,该误解把整个领域拉进死胡同,不过它在其他领域中只是让研究者们给真实但不太重大的成就贴上过于宏大的标签,其中这样一个领域是人工进化 。

回顾一下爱迪生关于进步需要“灵感”与“汗水”交替的观点,还有,计算机和其他技术使“汗水”阶段越来越可能自动化。这个受欢迎的进展误导了那些对于实现人工进化(以及人工智能)过分自信的人们。例如,假设你是一名机器人学专业的学生,想造出一个能比以前的机器人更擅长用腿走路的机器人。解决问题的第一阶段需要用灵感——创造性思维——来改进此前的研究者对解决同一问题的尝试。你的出发点是前人的这些尝试,还有你猜想可能与此相关的其他 问题的现有思想观念,以及自然界里会走路的动物的设计方案。所有这些东西构成了现有的知识,你将对它们进行改变和重组,然后经受批评以及进一步的改变。最终你会为你的新机器人的硬件创造出一个设计方案:带杠杆、关节、腱和电机的腿,携带电源的躯体,接受反馈信号以有效控制肢体的感官,实现这些控制的计算机。你将使设计方案中所有的东西都尽量适应走路的目的,除了计算机里的程序之外。

该程序的功能将是识别特定的状况,比如机器人开始翻倒,或者路上有障碍物,然后计算出合适的行动,并采取该行动。这是你的研究项目里最难的部分。怎么去识别什么情况下最好向左或向右躲避障碍物,或者从它上面跳过,或者把它踢开,或者无视它,或者加大步伐以免踩到它——或者判断出它无法逾越而掉头往回走?而且,所有这些情况下,怎样通过向电机和齿轮发送无数经过感官反馈修改的信号来具体做到这些?

你会把这个问题分解成子问题。以某个特定的角度转向,与以一个不同的角度转向是类似的。这使你可以写一个负责转向的子程序,它能处理所有可能情形组成的整个连续统。一旦你写好这个子程序,程序的其他所有部分就只需在决定要转向时调用它,而无须包含与实现转向所需的大量细节有关的知识。当你尽可能多地识别并解决了这类子问题之后,就创造出了一种代码,或说一种语言, 它高度适应于表达你的机器人怎么走路。对子程序的每一次调用,都是这种语言里的一个语句或命令。

到现在为止,你所做的事都顶着“灵感”的标签:它们需要创造性思维。但现在汗水逼近了。一旦把所有你知道该如何自动化的东西都自动化了,你就别无选择,只能依靠某种形式的试错来实现额外的功能。不过,你现在拥有了一个优势:你有一种语言,已经按照指导机器人走路的目标进行了适应。因此,你可以从一个在这种语言中算是简单的程序开始着手,虽然它从计算机基本指令的角度来说非常复杂,比方说这个程序是“往前走,遇到障碍物停下”。然后你可以用机器人运行这个程序,看看会发生什么。(你也可以对机器人进行计算机模拟。)如果它跌倒了,或者发生了什么其他不希望发生的情况,你可以修改程序(仍然是用你创造的高层次语言去修改),以在缺陷出现时去掉它们。这个方法将需要很少的灵感和很多的汗水。

但还有一条路向你敞开着大门:你可以用所谓的进化算法 ,把汗水委托给计算机。通过同样的计算机模拟,你可以进行许多尝试,每一次都使用与第一个程序略有不同的随机变种。进化算法自动对每个仿真机器人进行一系列你指定的检验——它能走多远不跌倒,应对障碍物和崎岖地形的能力如何,等等。每次模拟结束时,表现最好的程序留下,其他的被舍弃。然后又对这个 留下的程序创造许多变种,重复以上过程。将这个“进化”过程反复进行成千上万次之后,你可能发现,按照你设立的标准,你的机器人走得相当好。现在你可以写论文了。你不仅可以声称造出了一个走路技巧合乎要求的机器人,还可以声称在计算机上实现了进化 。

这种事情已经成功了许多次。这是一项很有用的技术。在变异和选择交替的意义上,它确实是“进化”。但在通过变异和选择去创造知识 这个更重要的意义上,它是不是进化?总有一天它会实现,但我怀疑它现在还没有实现,原因与我怀疑聊天机器人有智能(哪怕只是一点点)的原因相同。这个原因是,对这些东西的能力有着明显得多的解释,那就是程序员的创造力。

在“人工进化”的案例中排除知识由程序员创造的可能性,这个任务与检查一个程序是不是人工智能有着相同的逻辑,但更加困难,因为声称由这个“进化”创造出来的知识,其数量要少得多。就算你本人就是程序员,也无法判断自己有没有创造这部分数量很少的知识。一方面,你花了好几个月的设计工夫写到语言里去的知识,其中一部分有着延伸,因为它们编码了某些与几何定律和力学定律等有关的普遍真理。另一方面,在设计语言时,你始终想着它最终将用来表达什么样的能力。

图灵测试的概念使我们认为,如果给Eliza 程序提供足够多的标准答复模板,它将自动创造出知识;人工进化使我们认为,如果有了变异和选择,(适应性的)进化将自动发生。但两者都未必如此。两种情况下都存在另一种可能,即程序运行 的过程不会创造任何知识,只有程序员开发它的过程才创造知识。

这类工程里似乎屡屡发生的一件事是,在实现了预定目标后,如果允许“进化”程序继续运行,它不会再产生任何改进。如果成功的机器人的所有知识实际上都来自程序员,就会出现这样的情形。但它并不是一个决定性的批评:生物进化经常会出现“局部的最大适应”。此外,生物进化在获得了它那种神秘的通用性之后,似乎停滞了十亿年之久,随后才开始创造重要的新知识。但还是那句话,获得某种很可能由其他原因导致的结果,不能算是进化的证据。

这就是为什么我不相信有什么“人工进化”曾经创造过知识。出于同样的原因,我对一种与此略有不同的“人工进化”也持有同样的看法,后者试图在虚拟环境里使模拟生物体发生进化,让不同的虚拟物种互相竞争。

为了检验这个主张,我想看看另一个稍微不同类型的实验:把研究生从项目中去掉。然后,不使用为了进化出更佳走路技巧而专门设计出来的机器人,而使用一个已有现实用途、碰巧会走路的机器人。不去创建一种由子程序组成的专门语言来表述如何走路的猜想,而用随机数 来替代这个机器人现有的微处理器里现有的程序。为了产生变异,使用这种微处理器里必定会出现的那一类错误(不过,在模拟过程中可以让错误按你喜好的频率出现)。所有这一切的目的,是为了消除向系统设计里注入人类知识的可能性,这些知识的延伸可能被误认为是进化的产物。然后,按通常方式模拟运行这个变异系统,你想运行多少次都行。如果机器人能走得比原来更好,那我就错了。如果此后它还能继续改进,那我就大错特错了。

以上实验的一个主要特点是人工进化的通常方式所缺乏的,那就是,为了能够运作,(子程序的)语言 必须与它表达的适应性一起进化。在向通用性的跳转选定DNA遗传密码之前,生物圈所发生的事就是这样的。正如我所说的,情况有可能是,所有此前的遗传密码都只能编码少数几种彼此十分相似的生物。我们在四周看到的极其丰富的生物圈,是在语言不变的情况下由随机变异的基因创造出来的,它只有在那次跳转发生之后才成为可能。我们甚至不知道当时创造出来的通用性是什么。那么,为什么要期待我们的人工进化能脱离这种通用性行事?

我认为,对于人工进化和人工智能,我们都必须正视这样的事实:这些问题很困难。关于这些现象怎样得以在自然界中实现,还有许多重大的未知。在发现这些未知之前尝试人工实现它们,也许值得一试,但如果失败了也不奇怪。具体来说,我们不知道,进化出来描述细菌的DNA代码,其延伸范围为什么大到足以描述恐龙和人类。而且,尽管很显然人工智能会有感受性和意识,但我们无法解释这些东西。既然我们没法解释它们,怎么能期待用计算机程序模拟它们?它们干嘛要毫不费力地从设计用来做其他事情的项目中冒出来?但我猜想,当我们明白其中奥妙时,人工实现进化和智能以及与之相关的许多属性,将不用花多大力气。

术语

感受性—— 感受的主观方面。

行为主义—— 运用在心理学上的工具主义。该学说认为,科学只能(或应该只能)衡量和预测人们对刺激的行为反应。

小结

(通用)人工智能领域没有取得任何进展,因为在其核心里有一个悬而未决的哲学问题:我们还不了解创造性如何运作。一旦解决了这个问题,编程实现人工智能将不是难事。甚至人工进化也可能还没有实现,尽管看上去好像实现了。问题在于,我们不了解DNA复制系统的通用性的性质。

* * *

[1] 因此我所说的“人工智能(AI)”有时也称为“AGI”,即人工普智能。——原注

第一时间更新《无穷的开始:世界进步的本源》最新章节。

相关阅读

孩子们

伊坂幸太郎

明天又是崭新的一天

松浦弥太郎

如何让孩子成年又成人

朱莉•利思科特-海姆斯

字母表谜案

大山诚一郎

黑骏马

安娜·塞维尔

何故为敌

卡罗琳·艾姆克