人工智能时代的三次进化

From Pre-training to Reinforcement Learning

Andrej Karpathy 2025年8月 深度分析

AI学习范式的演进轨迹

第一阶段:预训练时代

在预训练时代,互联网文本是一切的核心。你需要的主要是大规模、多样化、高质量的互联网文档集合,让模型从中学习。

Large-scale internet documents collection

第二阶段:监督微调

在监督微调阶段,关键是对话数据。契约工作者被雇用来为问题创建答案,类似于你在 Stack Overflow 或 Quora 上看到的内容,但专门针对大语言模型的使用场景。

Conversation-based training approach

第三阶段:强化学习时代

在这个强化学习时代,核心是环境交互。与前两个阶段不同,环境为大语言模型提供了真正交互的机会——采取行动、观察结果等。这意味着我们可以期望做得比统计专家模仿更好。

Interactive learning through environments

核心洞察

就像之前一样,核心问题现在是需要大规模、多样化、高质量的环境集合,作为大语言模型练习的场所。

历史回顾

这让人想起 OpenAI 的第一个项目 Gym,这正是一个希望在同一模式下构建大量环境集合的框架。

技术演进的关键转折点

1

环境框架的现代化

PrimeIntellect 的环境中心和 GitHub 上的验证器仓库构建了专门针对大语言模型的现代化版本,这是一个很好的努力和想法。

2

社区并行化潜力

环境具有这样的特性:一旦框架的骨架就位,原则上社区和行业可以跨多个不同领域并行化,这令人兴奋。

未来展望与思考

Personal Insights & Future Predictions

看好的方向

BULLISH ON

环境交互

长期来看,我对环境和智能体交互非常乐观。

智能体互动

代理交互将成为AI发展的重要方向。

质疑的方向

BEARISH ON

强化学习

我对强化学习本身持悲观态度,认为奖励函数极其可疑。

人类学习模式

人类并不使用强化学习来学习知识问题解决任务。

未来学习范式的探索

更强大的范式

人类使用的是显著更强大、样本效率更高的不同学习范式。

早期探索

这些范式还没有被正确发明和规模化,尽管早期的草图和想法已经存在。

系统提示学习

将更新移至令牌/上下文而非权重,可选择性地蒸馏到权重作为单独过程。

"这有点像睡眠所做的事情 - 一个单独的过程来整理和巩固学习内容。"
— Andrej Karpathy on System Prompt Learning