人工智能的下半场

Author: Shunyu Yao

姚顺雨

The Second Half of AI

核心概述

当前人工智能正处于"下半场"的起点。过去的"上半场"围绕训练新模型、改进算法实现突破, 未来的"下半场"重心将从"能否训练出模型"转向 "应该训练模型去做什么""如何科学评价AI的真正进步"

定义评测和任务本身将成为AI领域最重要的方向,人工智能将在现实世界中创造实际效益。

上半场:突破模型与算法主导

里程碑式进展

DeepBlue 击败国际象棋世界冠军
AlphaGo 战胜围棋高手
GPT-4 通过各类考试

评审体系特点

• 训练方法在基准数据集上表现提升

• 方法普适性强,立竿见影

• AlexNet引用量远超ImageNet

• Transformer影响NLP、CV、RL多领域

上半场游戏规则:发明新模型或方法 → 提升标准任务表现

配方的成型:RL与大模型的结合

关键发现

强化学习最重要的部分不是算法或环境,而是预训练得到的先验(priors)。 GPT-2、GPT-3等大规模语言模型带来的"先验"知识才是关键突破点。

大规模预训练

通用常识与语言能力

自然语言推理

丰富Agent行为空间

无穷思想空间

思考与规划能力

配方诞生:RL先验 + 推理环境 → o-series、R1等模型大幅进化

范式转变

从模型驱动到评测驱动

过去:方法优先

  • • 专注发明强大模型/算法
  • • 基准测试作为验证工具
  • • 方法通用性决定影响力
  • • 学术指标为主要目标

未来:评测驱动

  • • 评测体系设计为核心
  • • 现实效用代表性任务
  • • 工业界社会需求导向
  • • AI与现实世界深度融合

下半场:重新定义评测

核心挑战转向

关键问题

我们到底应该让AI学什么?

评估标准

如何科学评估AI的进步?

效用问题

AI在棋类、人类考试、数学奥赛等任务上表现优异,但在现实世界经济与生产中的作用尚不明显。 根本症结在于现有评价体系与现实应用存在天然割裂

现实世界vs传统评测

传统假设

• Agent全自动完成任务

• 独立同分布(i.i.d)假设

• 标准化实验环境

• 单轮任务评估

现实需求

• 持续与人类互动

• 重复任务中积累经验

• 复杂情景下延续记忆

• 长期知识积累能力

下半场的机遇

开发真正面向效用的新评测体系,推动AI在实际中展现价值

谁能在新评价体系下取得突破,谁就有机会开创数十亿、上万亿美元的产业