观点｜杨庆峰：通用人工智能是多模态吗

作者：杨庆峰发布时间：2024-10-09 来源：哲学动态杂志+收藏本文

【编者按】自2022年以来，以ChatGPT为代表，由大型语言模型驱动的生成式人工智能所呈现的类似人类的语言能力和创造力，对人类智能产生了极大的冲击，很容易让人联想到在智能上全面超越人类、具有自我意识的超级智能。其强大智能以及可能危及人类生存的巨大风险成为讨论的焦点。通用人工智能就是其中的代表。本刊组织五位来自国内科学技术哲学与人工智能技术专业领域的资深学者对此话题作深入探讨。其中，刘永谋从技术、宣传和人文三个方面对当前通用人工智能之话语展开审度，以期寻找适合中国国情的通用人工智能辩证发展之路。刘伟通过分析通用人工智能在技术层面的实现所面临的三大困境入手，提出了一条人—机—环境系统智能生态之构建的新路径。杨庆峰则指出，“多模态大模型走向通用人工智能”只不过是多模态论者的一种信念，该信念包含失误，而通用人工智能只是走向超级智能的三条通路之一，另外两条是具身智能与交互智能。闫宏秀对通用人工智能之“通”的含义展开了深入分析，呼吁技术发展更应关注人的维度。段伟文探讨了生成式人工智能对通用人工智能之路的开启性意义，指出面对人工智能发展的巨大挑战，当前人文反思的一味忧惧应让位于对如何提升人类智能可塑性的探讨。技术进步的宗旨始终应当是为人类及其未来带来福祉。随着人工智能技术的飞速发展，一个对人类角色、社会伦理等展开全新哲学反思的历史机遇正摆在我们面前。

通用人工智能是多模态吗*

杨庆峰

（复旦大学科技伦理与人类未来研究院）

本文来自《哲学动态》2024年第9期

“聚焦：通用人工智能的哲学之思”栏目

［摘要］“真正的人工智能问题”即“通用人工智能”一直是学术界关注的重点之一。多任务、多语境以及多模态成为通用人工智能的三个主要特征。从根本上来说，“多模态大模型走向通用人工智能”已经成为多模态论者的一种信念。多模态论者存在忽略具身智能、灾难性遗忘、记忆的作用以及智能的自主性等失误。通用智能只是走向人工智能的终极目标——超级智能——的通路之一，它与具身智能、交互智能共同构成了超级智能的三条进路。

［关键词］通用人工智能；多模态；信念

人文学者与科学家都以不同方式关心着“真正的人工智能问题”[1]——通用人工智能（AGI），有学者称之为人工智能领域的终极目标、“圣杯”。但是围绕这个问题学界一直持续着两种完全相反的争议：一种是非实在论观念，认为AGI是不可能实现的[2]，或者认为AGI是一种宣传策略[3]；另一种是实在论观念，认为AGI可以在不远的将来实现，如乐格（S.Legg）曾在一次访谈中表示，2028年可以出现AGI（参见Legg，2023）。本文则从多模态这一角度对“真正的AI”展开进一步研究，即在阐述AGI特征的基础上讨论最近的“多模态大模型走向AGI”。

一.通用人工智能的三个特征

对AGI的探讨中存在一个颇具争议的关键点：“通用性”与“智能”何为AGI的最好出发点?面对“智能”定义的繁杂争论，笔者强调要从“通用性”进入对AGI的探讨。因为“AGI指的是一种极其复杂、灵活的人工智能，不仅能完成图像分类或跨语种文本翻译等任务，还能模拟人类的一切认知能力，如分析、创造等”（李飞飞，第356页) 。而戈策尔（B.Goertzel）进一步指出，AGI的核心假设是“范围明显窄的创造和研究（如人类水平）和概括能力强的合成智能的创造与研究，与范围更为狭窄、概括能力亦弱得多的合成智能的创造和研究，在本质上是不同的。”（Goertzel, p.3）综上，“通用性”是指贯穿在多任务、多语境和多环境中的一种解决问题能力。而多任务、多语境与多模态成为AGI的重要特征，我们称之为“三多”特征。

其一，多任务，即AGI能够完成多任务。在戈策尔看来，感知、阅读理解以及推理是多任务的表现。可以说他对通用智能的理解很大程度上是从认知角度进行突破的。乐格也持有AGI能够完成多个认知任务的观点。（参见Legg,2022）卢志武等人指出，BriVL模型是预训练模型，其数据主要是从公共网络源收集的大量弱语义关联数据集，这一模型展现出超强能力，包括“远程风景分类、新闻分类、跨模式提取以及视觉问题回答”（Fei, et al.）。然而，上述理解很显然没有把具身任务考虑在内。

其二，多语境，即AGI能够在新的语境中运用旧经验进行学习。在戈策尔看来，AGI能够将旧的知识转移到新的语境中，或者能够把特定的知识通用化。可以看出，这种理解已经开始强调学习和知识的迁移。然而在迁移学习的问题上，我们将会遇到最大的难题：灾难性遗忘问题（catastrophic forgetting）。“在当前机器学习中灾难性遗忘是一个严重问题。而当人类完成一个任务时，他们可以转换到另一个任务，不会忘记如何完成第一个任务。”（Tegmark, p.18）人类能够轻易做到把旧的经验运用到新的领域，不会产生问题。而对于机器而言，由于缺乏这种迁移能力，很容易遭遇原有信息删除所导致的“灾难性遗忘”的问题。记忆与遗忘是多语境理解面临的重要难题。

戈策尔对AGI的认识更强调多任务和多语境。他对多任务的分析更偏重认知意义上的任务，这也是为大多数学者所接受的观点。在AGI的问题上，大多数学者惯性使然地从智能分析入手，将相应的认知任务分析出来，而忽略了具身意义上的任务。李飞飞等人则将具身意义的任务突出，实现了一个更为全面的对AGI的理解。

其三，多模态，即AGI能够感知多形式信息内容。多模态是指智能体输入内容呈现出多样性。新近出版的一部多模态著作强调，多模态主要是从输入内容讲的，即输入内容呈现多类型，包括文本、图像、音频和视频,在该书作者看来，多模态大模型是一条迈向AGI的必然路径。(刘阳、林倞，第4页)在AGI发展的问题上，肖仰华教授分析了四条进路[4]，其中“先通后专”“先脑后身”这两条和本文讨论密切相关。从以上描述我们似乎可以提炼出“多模态大模型必然走向AGI”这样一个观念。那么如何理解这种认识呢？在笔者看来，“多模态必然走向AGI”更多是一种多模态论者持有的信念，在这个意义上我们可以称多模态论者为信念论者。

二.为何多模态论者是信念论者？

如果把多模态者称为信念论者，那么他们的这一信念从何而来？在哲学中，信念被看作心灵的状态，比如对一个命题的赞同。“从传统上看，信念被看作一种特殊的心灵状态：如笛卡尔所说的，一种认定同意某些命题的积极状态；或者如休谟所说，一种消极发生的状态；或者就某些命题来说，没有出现的状态。然而在当代哲学中，如赖尔所言，已经出现了否认信念是一种内省的状态以及支持行为识别的观点。因此，一种P被看作是一种特定方式行动的命题的信念明显与P的正确与否不一致：如崇拜上帝很明显与相信没有上帝是不一致的。”（Flew,p.41)对于多模态论者来说，他们对“多模态必然走向AGI”的命题是持赞同的态度。而他们之所以可以被称为信念论者可以从如下方面进行分析。

首先，从命题本身来看，“多模态必然走向AGI”可被看作后验必然命题。在科学哲学中克里普克提出“水是H2O”是后验必然命题，其理由是：命名方式只是权宜之计，可以通过历史因果链条[5]在社会团体中传播，可以修订，并且受到时代限制，等等。“‘水是H2O’”这样的后验必然命题是科学发现的结果，是人们的认识由浅入深的结果。”（陈晓平，第63页）如果我们再看“多模态必然走向AGI”这样一个命题会发现类似的性质：AGI也只是对人工智能终极目标描述的权宜之计；AGI已经通过历史因果链条在人工智能研究者中传播且被不断修改；AGI的本质特性会被逐渐澄清并补充至我们当前的认识中。然而克里普克的这个认识被后来学者所更正。“克里普克没有看到后验必然命题的相对性，而是把它绝对化了，把后验必然性看作一种‘最高度的必然性’。从他的有关论述中似乎透出这样的信念：诸如‘水是H2O’这样的后验必然命题如同上帝的安排将永远不可推翻。这种信念显然是错误的。”（同上，第64页）如此一来，“多模态必然走向AGI”这一信念的未来命运令人忧心。

其次，从信念知觉基础来看，多模态论者因为亲历技术发展从而建立这一信念。当代知识论学者认为，知觉是知识信念的来源。“知觉是知识和确证的源头,借以产生构成知识或者被确证的信念的来源。但是我们不希望通过这些信念来理解知觉性知识。我们也必须要理解知觉是什么以及如何产生的。”（Audi,p.16)从这个角度看，多模态论者之所以可以被称为信念论者，就在于他们是技术亲历者，能够准确地感知多模态与AGI发展的内在联系。“AGI已经从模拟人类大脑的思维能力（以语言模型为代表），快速演进至“操控身体”的具身模型（以具身大模型为代表）。” （肖仰华）多模态论者们作为技术专家，对大型语言模型（LLMs）和具身模型有理性的认知，这成为其信念的重要来源。

再次，从信念的情感基础来看，多模态论者因为对大模型的特殊情感使得他们持有这一信念。信念除了证实、知觉之外，还有个重要基础是习惯和情感。从卢志武等人的观念可见，他们把AGI建立在模型的想象力之上。在他们的推理中，存在一个极大的飞跃，大模型的想象力促使这种信念得以强化。而大模型如何拥有想象力缺乏实证论证，从而成为颇具模糊性的表达。对此，我们或许只能说是一种情感决定了相应信念的出现。而肖仰华指出“以生成式人工智能为代表的AGI”，这样一种认识是基于理性认定的结果。

最后，从信念的结构来看，多模态论者的信念具有清晰的三元结构。根据罗素，信念由三种因素构成：相信的行为、所信的东西和对象体(objective)。“当前的这个事件即所相信的东西，我称之为该信念的内容。就记忆—信念而言，我们已经有机会注意到内容与对象体的区别；在那里，内容就是‘这出现过’；而对象体就是过去的事件。”（罗素，第204页)从罗素的观点看，多模态论者的信念结构非常明晰。相信的行为就表现为对LLMs走向AGI观念的理性接受或者想象力推动的结果。而所信的东西（信念内容）则表现为一个事件：AGI正在以生成式人工智能（即GAI）如Sora、ChatGPT等表现出来；对象体是过去已经存在AGI的迹象。在人工智能历史上已经有着对真正AI的讨论——这个问题贯穿在人工智能的整个发展过程中。

三.多模态论者的失误

多模态论者强调输入信息内容的多样性以及强调多模态迈向或者走向AGI，但其理解当中却存在着四个失误：

（1）多模态论者忽略了具身智能具有的作用。克里麦博格（D.Kremeberg）指出，具身是通用智能的先天必要条件：“······AGI的具身路径不仅仅是把感觉器附加在机器身体上，更是允许一种更加丰富更加完全的质性体验，这与人类具身的本质以及感官体验的质性深度有关。”（Kremeberg,p.135) 李飞飞等人借助深度进化增强学习 (DERL)使得具身智能体能够完成多任务，比如推箱子、控球以及逃跑。(参见Fei,et al.)他们设计的智能体极具特点——身体形态类似虫子，这完全颠覆了多数人对于机器人形体的想象。在2014年西班牙科幻电影《机器纪元》（Autómata）中，由机器人设计出的后代恰恰具有类似虫子的外形。原因之一在于，在进化最终目的引导下，身体形态必须适应环境的变化。正如我们看到变色龙能够通过改变皮肤颜色来适应环境，还有些生物通过改变身体结构适应环境变化，等等。同样，对于具身智能体而言，通用性指自身能够适应环境的变化。

（2）多模态论者忽略了“灾难性遗忘”问题。人类学习能够做到举一反三、泛化学习，将旧的经验迁移到新的技能学习中，但是多数动物和机器不具备这种迁移能力。这种缺陷被称为“灾难性遗忘”。有学者指出，“智能体面对一个困难的任务：他们必须有效地从高维感官输入提出有效的环境表征，并用这些表征将过去的经验使用到新环境中”（Mnih,et al.)。卢志武等人的多模态理解强调了BriVL模型展现出的超强能力，包括远程风景分类、新闻分类、跨模式提取以及视觉问题回答，但并没有注意到能够在不同技能之间的迁移的东西。（参见Fei，et al.）鲍斯彻姆在分析“通用性”时举出了蜜蜂建造蜂巢、海狸建造水坝的例子，亦指出动物只能掌握一种技巧，而人类可以在观察中掌握两种技能，但其解释忽视了掌握不同技能之间的特定关系，这种关系就是经验的可迁移性，即能够把学习技能1（如建造蜂巢）的经验迁移到技能2（如建造水坝）的能力。（参见Bostrom, et al.）

（3）忽视了记忆在其中的关键作用。罗素曾经指出，在人类的当下行动决策过程中，除了理性起到不可获缺的作用外，过去的记忆也能够起到决定性的作用。而在LLMs所表现出的行为中，我们很难确定机器的回应是受到了过去记忆的影响。杨立坤认为，LLMs缺乏常识、没有记忆，而且无法规划答案。（参见Yann, et al.）乐格更是在一次访谈中指出，LLMs无法实现人类的情景记忆。（参见Legg, 2023）。这些都是多模态论者们所完全忽略的问题。然而，最近的一项研究显示，LLMs的恶意具有潜伏期，测评阶段可以做到人畜无害，而发布时瞬间变坏。研究人员指出，LLMs可以区分过去和未来，也就是说，具有了记忆。（参见Price, et al.）

（4）忽略了智能的自主性问题。杨立坤将短期记忆看作自主智能系统架构中与世界模型有着密切关系的模块。（参见Yann, et al.）如果说多模态论者忽略了记忆这一因素，其必然的结果是导致自主智能体构架的失利。在他们看来，AGI是指这样一种智能，即拥有合理程度的自我理解和自主的自我控制，具有在不同语境中解决复杂问题的能力以及解决其创造时刻所不知道的新问题的能力。(参见Goretzel, et al.,p.3)整合路径基本原理来自psynet模型，这一模型列举了一系列智能体必须的属性，即如果这个智能体是当前自主的、自组织的、自我进化系统，它就对世界有自己的理解，能够在意识层面关联人类。(参见Goretzel, et al.,p.26)而多模态论者的视域过于狭窄，只盯着输入内容的多样性而错过了智能自主性这一关键因素。不过，在AGI讨论中，偏重通用还是智能的区分，基于智能角度去指责多模态论者多少有些强人所难了，并非一种有力的批评。但“灾难性遗忘”问题以及相关的记忆问题则是多模态论者必须要回应的问题。

结语

也许李飞飞的观点可以说明AGI在目前的尴尬局面。在她看来，“‘通用’智能从一开始就是人工智能的全部意义所在，前路虽长，但这并不意味着我们可以降低目标”（李飞飞，第356页）。并且她指出，AGI被整个人工智能领域看作终极目标。尽管有学者通过各种各样的方式否认或者拒绝AGI，我们依旧可以因此大胆推测，“走向AGI”更多是一种存在于科学家之中的普遍信念。

另外，实现通用智能要解决的并不是如何实现多样性，这个问题只是功能主义之下的必然逻辑。有些学者试图通过澄清“专”与“多”的关系来说明AGI的可能性，这在理论基础的建设上有所帮助，但是并没有抓住问题的关键。“多”并不是指经验的多样性，而是基于某种记忆延伸表现出来的多样性。恒定的记忆经验贯穿在“多”之中，这样才可以实现记忆的可迁移性。有两个问题需要注意：一是记忆与遗忘，即智能体如何在将“一”拓展为“多”的过程中克服“灾难性遗忘”。“在人工智能学家看来，持续性学习能力是设计AGI的重要步骤，这意味着需要面对灾难性遗忘现象。”（杨庆峰，2020年，第221页）目前，新的KANs模型有望克服这一问题，原因在于“KANs有着局部可塑性（plasticity）且能够充分利用样条的局部（the locality of splines）[7]来避免灾难性遗忘。这个理念简单：因为样条基准是局部的，一个样本仅仅会轻微影响附近的样条系数，保留了远处系数的完整（这是可取的因为远处区域可能已经存储了我们希望保留的信息）”（Tegmark,p.19）。二是“多”不是类别意义上的结果，而是经验迁移意义上的结果，是建立在智能进化基础上的结果。“人们在很大程度上忽略了‘智能如何进化的知识可能对于复制智能是必要’的这一理念。” (Kremeberg,p.135)所以，只是增加场景的数量、任务的数量对于AGI的构建是没有帮助的，这些只是手段，而最终目的是实现自身进化。

因此，“多模态走向AGI”的观念是一种狭隘理解的结果，可被看作是多模态论者的一种信念持有，它只是走向人工智能的终极目标——超级智能——的通路之一，它与具身智能、交互智能一起构成了超级智能的三条进路。[8]而在未来，我们会面临一个的悖论：一方面，超级智能是人类面对人工智能的一种生存焦虑，这从某种程度上表明超级智能是人类焦虑建构出来的结果；另一方面，超级智能正在从科幻变为现实，是现实科学的产物。在这个悖论中，AGI又将如何？还需要我们更多的思考。

注释

*本文系国家社会科学基金重大项目“当代新兴增强技术前沿的人文主义哲学研究”（编号20&ZD045）的阶段性成果。2024年7月18日，作者在上海市数据科学重点实验室作同题报告，分享了论文的主要观点，并与肖仰华教授进行了较为深入的讨论，他对本文观点提出了修改意见，作者据此修改了论文的部分观点和表述。特此致谢。

[1]牛津大学哲学教授鲍斯彻姆在人工智能发展的语境下提出了这个问题。他认为，人工智能的子领域刚刚形成，但“通用人工智能”却是用来指代“真正的人工智能”的术语，由此可见，新出现的共识错失了“通用性”（generality）。（参见Bostrom, et al.）清华大学张钹院士亦从人工智能内部机制的角度提出了类似的问题。“双空间模型模仿了大脑的工作机制, 但由于我们对大脑的工作机制了解得很少, 这条道路存在某些不确定性,比如,机器通过与环境的交互学习 (强化学习) 所建立的‘内在语义’,与人类通过感知所获取的‘内在语义’是否一样,机器是否也能具有意识等, 目前还不能肯定。尽管存在这些困难,但我们相信机器只要朝这个方向迈出一步,就会更接近于真正的AI。”（张钹等，第1297页）

[2]兰格雷布（J.Landgrebe）等学者指出，存在两个数学理由说明我们不可能建造AGI：（1）缺乏作为AGI设计出发点且足够明晰的数学模型；（2）使用机器学习的自动模型无法扩展到处理与人们的对话。（参见Landgrebe, et al.）今天看来，由于2022年ChatGPT以及GPT系列大模型的出现，（2）已经不再成立。但是（1）似乎还有效，我们尚未看到足够明晰的数学模型。

[3]有学者认为，在此轮AI热潮中，AI宣传术居功至伟，但也呈现出某些负面效应。除了娱乐化宣传外，当前AI发展的娱乐化趋势还表现在研究方向、企业组织和评论研究的娱乐化，这在产业方向、认知观念和现实战略等层面均有表现。（参见刘永谋、王春丽）

[4]这四条进路分别是：（1）“填鸭灌输”进路，即“当前机器智能走的是一条“填鸭灌输”式的路径，是一条实现先进智能的捷径”；（2）“先通再专”进路，即“AGI的发展带给我们的另一个启示在于机器智能走出了一条‘先通再专’的发展路径”；（3）“先符号再体验、从形式到内容”进路，即“所以AGI走出了一条先符号再体验、从形式到内容的发展路径”；（4）“先大脑再身体”进路，即“AGI走出了一条‘先实现大脑的认知能力，后实现身体与物理世界交互能力’的发展路线”。（参见肖仰华）

[5]“人工智能”即“AI”这一名称的来源完全可被视作符合历史因果链条，因为首先它是通过达特茅斯会议确立的，这不仅仅是一次学术会议，更可以看作某种充满情感的仪式；其次，这一名称被传承下来并发展出了各种各样的形式。当然对于这个名称的使用始终充满了分歧和争议，“AGI”尤其如此。

[6]休谟的信念理论表明，在人类信念的形成中起决定性作用的不是理性而是习惯、情感，持这种观点的学者较多，如米勒（D.Miller）、威兰（F.Whelan）以及国内学者李伟斌、刘洋等。（参见栾俊）

[7]即利用最小表面曲率的数学表达式来模拟生成通过一系列样点的光滑曲面。

[8]笔者已经对这三条道路给予分析：“通用智能”是指智能体具有迁移学习和持续学习的能力，可以在多个任务、场景中实现有效性；“具身智能”是指智能体通过身体形态表现出来的通用能力；“交互智能”是指智能体通过人机交互甚至机机交互实现进化。其中，前两者是实体智能，后者则是一种关系智能形式。（参见杨庆峰，2023年）

参考文献

导航

观点｜杨庆峰：通用人工智能是多模态吗

联系我们