核心概述
当前人工智能正处于"下半场"的起点。过去的"上半场"围绕训练新模型、改进算法实现突破, 未来的"下半场"重心将从"能否训练出模型"转向 "应该训练模型去做什么"与 "如何科学评价AI的真正进步"。
定义评测和任务本身将成为AI领域最重要的方向,人工智能将在现实世界中创造实际效益。
上半场:突破模型与算法主导
里程碑式进展
评审体系特点
• 训练方法在基准数据集上表现提升
• 方法普适性强,立竿见影
• AlexNet引用量远超ImageNet
• Transformer影响NLP、CV、RL多领域
上半场游戏规则:发明新模型或方法 → 提升标准任务表现
配方的成型:RL与大模型的结合
关键发现
强化学习最重要的部分不是算法或环境,而是预训练得到的先验(priors)。 GPT-2、GPT-3等大规模语言模型带来的"先验"知识才是关键突破点。
大规模预训练
通用常识与语言能力
自然语言推理
丰富Agent行为空间
无穷思想空间
思考与规划能力
配方诞生:RL先验 + 推理环境 → o-series、R1等模型大幅进化