我们如何实现通用人工智能

弗朗索瓦·肖莱(François Chollet)对当前AI方法的批判性审视,以及通往真正机器智能的路线图。

规模化的黄昏

2010年代,AI界普遍认为“规模就是一切”。但肖莱指出,仅靠扩大模型和数据无法通向AGI,这混淆了“记忆化技能”与真正的“流畅通用智能”。

模型规模 vs. ARC-1得分:脱节的增长

下图展示了从2019年到2025年,基础模型规模扩大了约50,000倍,但衡量流畅智能的ARC-1基准测试得分却几乎停滞不前。这有力地证明了规模化范式的局限性。

衡量真正的智能:ARC基准

为了衡量AI即时解决新问题的能力,肖莱开发了抽象推理语料库(ARC)。它不像传统基准那样可以被“刷题”,而是需要真正的推理能力。

ARC 1

揭示局限 (2019)

旨在挑战“记忆化”的深度学习模型。结果显示,即便模型规模暴增,也无法解决这些需要即时推理的任务。

ARC 2

挑战组合推理 (2025)

任务更复杂,侧重于组合泛化能力,旨在评估新兴的“测试时适应”(TTA)系统,并揭示其与人类的差距。

ARC 3

评估能动性 (2026)

将转向评估AI在未知环境中的探索、学习和自主实现目标的能力,是衡量AGI的下一个重要步骤。

ARC-2 性能对比:巨大的鸿沟

在更复杂的ARC-2上,当前最先进的AI系统与普通人类的表现依然相去甚远。这表明,即使引入了“测试时适应”,我们离人类水平的流畅智能仍有很大距离。

智能的本质:过程而非产物

肖莱认为,智能不是掌握了多少技能,而是获得和应用新技能的效率。这是一个根本性的区别,决定了我们应该追求什么样的AI。

❌ 技能 (产物)

🗺️

静态的“道路网络”

拥有一个固定的网络,只能在预设的A点和B点之间移动。这代表了当前AI所展示的、通过大量数据记忆下来的特定任务能力。

✅ 智能 (过程)

🏗️

动态的“修路公司”

拥有即时开辟新道路的能力,可以根据需要连接任何新的地点。这代表了AGI应具备的、适应未知、创造解决方案的能力。

智能的基石:两种抽象

根据“万花筒假说”,世界由少数可重用的“意义原子”构成。智能的核心是识别并重组这些原子,即“抽象”。肖莱将其分为两种类型。

类型一:价值中心抽象

连续、直觉、感知

通过连续的距离函数来比较事物,是模式识别和直觉的基础。现代深度学习模型(如Transformers)极其擅长此类抽象,能够处理感知和模式匹配任务。

  • 核心: 连续空间插值
  • 代表: 机器学习、模式识别
  • 优势: 计算高效、处理模糊信息
  • 局限: 数据需求大、难以实现严谨推理
类型二:程序中心抽象

离散、推理、规划

通过离散的程序和结构进行精确匹配,是逻辑推理和规划的基础。人类的严谨思维,如软件工程和数学,依赖于此。AI在此方面仍非常薄弱。

  • 核心: 离散结构匹配
  • 代表: 符号推理、程序合成
  • 优势: 数据效率高、可实现组合泛化
  • 局限: 易遇组合爆炸、计算成本高

未来之路:融合两种智能的元学习器

通往AGI的道路并非选择其一,而是将两种抽象能力深度融合。肖莱提出了一种“程序员式元学习器”的架构,它能像程序员一样,面对新问题时动态地编写和组合解决方案。

类型一:直觉引擎

🧠

基于深度学习,提供快速、近似的判断。它为搜索过程提供启发式指导,避免盲目地遍历整个程序空间。

作用: 引导搜索,评估程序片段的“前景”。

输出: "这个方向看起来有希望" 或 "这个模块可能有用"。

核心:离散程序搜索

⚙️

系统的核心推理引擎。它在符号空间中进行组合搜索,以构建解决当前任务的程序。这是实现发明和创造的关键。

作用: 组装、修改、创造程序。

输出: 一个可执行的、为任务量身定制的解决方案。

类型二:抽象库

📚

一个不断演进的、可重用的构建块(程序、模块、概念)的全局库。系统从中汲取灵感,并将新发现的抽象添加回去。

作用: 存储和检索可重用的解决方案片段。

输出: 现成的函数、类、算法,加速新程序的构建。

引导
构建
存/取

这个闭环系统通过融合直觉来指导严谨的搜索,并利用一个不断增长的知识库,从而实现高效、自适应和创造性的问题解决。这就是Ndea实验室正在构建的未来AI。

完整演讲视频

观看弗朗索瓦·肖莱在Y Combinator AI Startup School的完整演讲,深入了解他的AGI愿景。