我们如何实现通用人工智能
弗朗索瓦·肖莱(François Chollet)对当前AI方法的批判性审视,以及通往真正机器智能的路线图。
规模化的黄昏
2010年代,AI界普遍认为“规模就是一切”。但肖莱指出,仅靠扩大模型和数据无法通向AGI,这混淆了“记忆化技能”与真正的“流畅通用智能”。
模型规模 vs. ARC-1得分:脱节的增长
下图展示了从2019年到2025年,基础模型规模扩大了约50,000倍,但衡量流畅智能的ARC-1基准测试得分却几乎停滞不前。这有力地证明了规模化范式的局限性。
衡量真正的智能:ARC基准
为了衡量AI即时解决新问题的能力,肖莱开发了抽象推理语料库(ARC)。它不像传统基准那样可以被“刷题”,而是需要真正的推理能力。
揭示局限 (2019)
旨在挑战“记忆化”的深度学习模型。结果显示,即便模型规模暴增,也无法解决这些需要即时推理的任务。
挑战组合推理 (2025)
任务更复杂,侧重于组合泛化能力,旨在评估新兴的“测试时适应”(TTA)系统,并揭示其与人类的差距。
评估能动性 (2026)
将转向评估AI在未知环境中的探索、学习和自主实现目标的能力,是衡量AGI的下一个重要步骤。
ARC-2 性能对比:巨大的鸿沟
在更复杂的ARC-2上,当前最先进的AI系统与普通人类的表现依然相去甚远。这表明,即使引入了“测试时适应”,我们离人类水平的流畅智能仍有很大距离。
智能的本质:过程而非产物
肖莱认为,智能不是掌握了多少技能,而是获得和应用新技能的效率。这是一个根本性的区别,决定了我们应该追求什么样的AI。
❌ 技能 (产物)
静态的“道路网络”
拥有一个固定的网络,只能在预设的A点和B点之间移动。这代表了当前AI所展示的、通过大量数据记忆下来的特定任务能力。
✅ 智能 (过程)
动态的“修路公司”
拥有即时开辟新道路的能力,可以根据需要连接任何新的地点。这代表了AGI应具备的、适应未知、创造解决方案的能力。
智能的基石:两种抽象
根据“万花筒假说”,世界由少数可重用的“意义原子”构成。智能的核心是识别并重组这些原子,即“抽象”。肖莱将其分为两种类型。
类型一:价值中心抽象
连续、直觉、感知
通过连续的距离函数来比较事物,是模式识别和直觉的基础。现代深度学习模型(如Transformers)极其擅长此类抽象,能够处理感知和模式匹配任务。
- ▶ 核心: 连续空间插值
- ▶ 代表: 机器学习、模式识别
- ▶ 优势: 计算高效、处理模糊信息
- ▶ 局限: 数据需求大、难以实现严谨推理
类型二:程序中心抽象
离散、推理、规划
通过离散的程序和结构进行精确匹配,是逻辑推理和规划的基础。人类的严谨思维,如软件工程和数学,依赖于此。AI在此方面仍非常薄弱。
- ▶ 核心: 离散结构匹配
- ▶ 代表: 符号推理、程序合成
- ▶ 优势: 数据效率高、可实现组合泛化
- ▶ 局限: 易遇组合爆炸、计算成本高
未来之路:融合两种智能的元学习器
通往AGI的道路并非选择其一,而是将两种抽象能力深度融合。肖莱提出了一种“程序员式元学习器”的架构,它能像程序员一样,面对新问题时动态地编写和组合解决方案。
类型一:直觉引擎
🧠
基于深度学习,提供快速、近似的判断。它为搜索过程提供启发式指导,避免盲目地遍历整个程序空间。
作用: 引导搜索,评估程序片段的“前景”。
输出: "这个方向看起来有希望" 或 "这个模块可能有用"。
核心:离散程序搜索
⚙️
系统的核心推理引擎。它在符号空间中进行组合搜索,以构建解决当前任务的程序。这是实现发明和创造的关键。
作用: 组装、修改、创造程序。
输出: 一个可执行的、为任务量身定制的解决方案。
类型二:抽象库
📚
一个不断演进的、可重用的构建块(程序、模块、概念)的全局库。系统从中汲取灵感,并将新发现的抽象添加回去。
作用: 存储和检索可重用的解决方案片段。
输出: 现成的函数、类、算法,加速新程序的构建。
这个闭环系统通过融合直觉来指导严谨的搜索,并利用一个不断增长的知识库,从而实现高效、自适应和创造性的问题解决。这就是Ndea实验室正在构建的未来AI。
完整演讲视频
观看弗朗索瓦·肖莱在Y Combinator AI Startup School的完整演讲,深入了解他的AGI愿景。