为 AI 智能体打造高效工具全解析

Anthropic 工程团队实践心得

Ken Aizawa / Anthropic Engineering Team 2025 MCP · AI Agent · Tool Design
AI
AGENT TOOLS
Next-Gen Development

核心指标

工具调用精准率 95%+
上下文优化 60% ↓
任务完成率 80%+
概述

本文系统梳理了 Anthropic 工程团队在为 AI 智能体打造工具时的实战心得。围绕"工具应该如何为智能体而设计",阐述了构建高效 MCP 工具的全过程。

核心结论:只有将工具体验紧密围绕智能体的行为模式和非确定性特性来定制,才能真正释放 AI 智能体解决复杂真实任务的潜力。

1 认知升级:工具的新定义与设计范式

传统思维

  • • 确定性系统设计
  • • 为程序员编写 API
  • • 固定格式输出
  • • 相同输入必然输出

新范式

  • • 为智能体量身定制
  • • 拓展智能体任务边界
  • • 顺应人类直觉
  • • 拥抱非确定性响应

核心洞察

AI 智能体代表着高度非确定性的系统。工程师要抛弃"只为程序员或其他系统编写 API"的惯性思维,转向"为智能体量身定制",承认和利用智能体可能产生多样化响应的本质。

2 从原型到优化:全流程实践

原型开发

  • • 快速搭建本地 MCP 服务器或桌面扩展原型
  • • 用 Claude Code 等 AI 辅助工具连接验证
  • • 文档必须对 LLM 友好,组织成 llms.txt 文件
  • • 用真实用户场景测试,捕捉"顺手"与"别扭"之处

体系化评估

  • • 生成大量贴近真实业务的数据任务
  • • 任务要具备复杂度(多步交互)
  • • 基于 API、循环调用等自动化流程批量评估
  • • 系统提示中要求输出推理思维链

智能协作

  • • 智能体批量分析原始交互记录
  • • 自动发现工具定义中的问题
  • • 多维追踪指标(精准率、耗时、token 消耗)
  • • 持续"迭代-测试-调整"循环优化

3 编写高效 MCP 工具的核心原则

工具选择精细化

不求多但求准

  • • 避免"泛用型大杂烩",与高价值场景深度耦合
  • • 优先按关键词检索的 search_contact,而非返回所有联系人
  • • 复杂业务场景整合多步操作为"复合型"工具

命名空间策略

明确功能边界

  • • 按业务线、功能系统分类
  • • 统一前缀/后缀命名(asana_search、jira_search)
  • • 避免功能重叠、边界模糊

返回信息优化

只给智能体"高价值"内容

  • • 放弃 uuid、256px_image_url 等晦涩字段
  • • 优先返回 name、image_url、file_type 自然语言资源
  • • 利用 response_format 枚举满足不同详细需求

上下文管理

严格分段与引导策略

  • • 加分页、范围、过滤和默认参数
  • • 设置上限防 token 过载
  • • 返回"能被理解和修复的错误"
  • • 引导智能体多步精确而非大范围抓取

提示词工程的艺术

工具描述应像写给新同事一样"言简意赅",所有依赖的背景知识必须写清楚,微调和完善描述能显著提升工具调用准确率和任务完成率。

95%+
调用精准率
60%↓
上下文优化
80%+
任务完成率

4 框架与心智模型

以评估为驱动

让迭代升级成为工具开发核心

将评估环节变成开发流程的核心驱动力,每一次功能调整、描述升级、参数精简,都需要量化分析其对智能体效果的影响。只有持续不断评估与对比,才能锚定最优设计。

协作与自动化

释放智能体主动优化能力

将人类专家经验与 AI 智能体自动化协作结合,通过交互历史、指标分析、CoT 思维链等机制,补齐纯人工无法覆盖的盲点和冗余。

拥抱非确定性

重视复杂多样的响应模式

AI 智能体对世界的理解和响应不是一成不变的。充分利用这一特点,打造出既能应对标准场景、又能灵活适配意外需求的"弹性工具"。

真实世界导向

让智能体从容解决复杂问题

工程师应深刻理解智能体的非确定性特质,打造能够应对真实世界复杂需求的工具生态系统,让 AI 真正发挥解决实际问题的潜力。