概述
学 Agent 开发最大的陷阱是一上来就选框架、写代码。正确的顺序是先理解"为什么需要 Agent",再从最小可用的系统开始,逐步叠加工具调用、协议对接、状态管理和多 Agent 协作。
本篇把学习路径拆成 4 个阶段,每个阶段有明确的学完标志和推荐阅读。全部读完大约需要 2-4 周(取决于你每天能投入多少时间)。
四阶段路线图

四个阶段从左到右递进,每个阶段解锁新的能力:阶段 1 学会判断任务该停在哪个层级,阶段 2 写出第一个能调工具的 Agent,阶段 3 掌握 MCP 协议并选一个框架,阶段 4 构建多 Agent 系统并处理生产化问题。下面逐个拆解。
阶段 1:概念与判断(2-3 天)
目标:能判断一个任务该用"单次调用 / Workflow / Agent"哪个层级。
必读
- 什么是 AI Agent — 理解三层心智模型:单次调用 → 工作流 → Agent Loop
- Agent 设计模式 — 从 Single Call 到 Agent Loop 的模式阶梯,以及什么时候该停在简单模式
- Agent 应用场景 — 20+ 个真实场景分类,帮你判断自己的需求属于哪一类
学完标志
- 能用一句话说明 Agent 和普通 LLM 调用的区别
- 看到一个需求时,能判断是否真的需要 Agent(很多人的第一反应是"加 Agent",但很多任务用单次调用 + 串联就够了)
- 理解 安全护栏 的基本概念:权限分级、人工确认、成本控制
阶段 2:函数调用实战(3-5 天)
目标:用 SDK 写出第一个能调用工具的 Agent。
这是整个路线最关键的一步。不要跳到框架,先理解函数调用(Function Calling)是 Agent 的底层原语。
核心概念
用户请求 → LLM 判断需要调用工具 → 返回工具调用意图
→ 执行工具 → 工具结果回传 LLM
→ LLM 基于结果继续推理 → 最终输出
推荐 SDK 入口
| SDK | 语言 | 适合 | 入口 |
|---|---|---|---|
| OpenAI Agents SDK | Python | OpenAI 模型用户 | 入门教程 |
| Claude Agent SDK | Python/TS | Claude 模型用户 | Agent SDK |
| Google ADK | Python/Java/Go/JS | Google Cloud 用户 | Google ADK 官方文档 |
最小可运行示例(Python + OpenAI)
from agents import Agent, Runner, function_tool
@function_tool
def get_weather(city: str) -> str:
"""获取指定城市的天气"""
# 实际项目中这里调用天气 API
return f"{city}:晴,25°C"
agent = Agent(
name="weather_agent",
instructions="你是一个天气助手,用中文回答。",
tools=[get_weather],
)
result = Runner.run_sync(agent, "北京今天天气怎么样?")
print(result.final_output)
# → "北京今天天气:晴,25°C。适合出门活动。"
学完标志
- 能从零写出一个带 1-2 个工具的 Agent
- 理解
function_tool装饰器 /tools参数的语义 - 知道为什么工具的 docstring 和参数描述很重要(LLM 靠这些决定何时调用)
阶段 3:MCP 协议 + 框架选型(5-7 天)
目标:理解 MCP 协议的作用,选一个框架构建有状态的工作流。
为什么需要 MCP?
阶段 2 的工具是硬编码在代码里的。当你的 Agent 需要访问数据库、调用外部 API、读取文件时,每加一个工具就要改代码、重新部署。
MCP(Model Context Protocol)解决的是工具标准化的问题:
没有 MCP:每个 Agent 自己定义工具接口 → 工具无法复用
有了 MCP:工具按 MCP 协议暴露 → 任何 MCP 客户端都能调用
这类似于 USB 接口标准化之前,每个外设都有自己的接口;标准化之后,任何设备都能插任何电脑。
推荐阅读顺序
- MCP 协议入门 — 理解协议的三个原语:Tools、Resources、Prompts
- MCP Server 开发实战 — 从零写一个 MCP Server
- MCP Inspector 使用 — 调试 MCP Server 的官方工具
- MCP Server 生态 — 社区已有的 MCP Server 清单
框架选型
学完 MCP 后,你需要一个框架来编排多个 Agent 和工具的协作:
| 场景 | 推荐 | 教程 |
|---|---|---|
| 需要精细控制状态流转 | LangGraph | LangGraph 指南 |
| 多 Agent 编排 + 快速上手 | CrewAI | CrewAI 官方文档 |
| Google Cloud 环境 | Google ADK | Google ADK 官方文档 |
| .NET/Azure 企业环境 | Semantic Kernel | SK 指南 |
| 完整对比 | → | 框架横评 |
学完标志
- 能写出一个 MCP Server 并用 Inspector 调试
- 理解 MCP 的 Tools / Resources / Prompts 三种原语的适用场景
- 选定了 1 个主框架并跑通了官方 Quickstart
阶段 4:多 Agent 协作与生产化(7-14 天)
目标:构建能处理真实业务场景的多 Agent 系统。
多 Agent 的三种模式
模式 A:串行流水线
Agent A → Agent B → Agent C
适合:研究 → 写作 → 审核 这类线性流程
模式 B:路由分发
Router Agent → Agent A(简单问题)
→ Agent B(复杂问题)
→ Agent C(技术问题)
适合:客服、工单分类
模式 C:协作讨论
Agent A ↔ Agent B ↔ Agent C(共享上下文)
适合:代码审查、头脑风暴、复杂决策
关键协议
- MCP:管工具(Agent → 外部工具的标准化接口)
- A2A:管协作(Agent → Agent 的发现和通信)
→ 详见 A2A 协议入门
生产化必须考虑的问题
| 问题 | 解决方案 | 参考 |
|---|---|---|
| Agent 调用失控 | 权限分级 + 人工确认 | 安全指南 |
| 状态丢失 | 框架 checkpoint 机制 | 框架更新 |
| 成本爆炸 | Token 预算 + 用量监控 | 安全指南 |
| 调试困难 | 日志 + Tracing | 框架横评 |
| 多 Agent 互操作 | MCP(工具层)+ A2A(Agent 层) | A2A 协议 |
学完标志
- 用选定的框架构建了一个 2-3 个 Agent 协作的系统
- 实现了 checkpoint(断点恢复)和基本的安全护栏
- 理解 MCP 和 A2A 分别解决什么层面的问题
不在这条路线上的东西
以下是常见的学习弯路,本路线刻意跳过:
- RAG(检索增强生成):重要,但它是"数据层"的问题,不是 Agent 核心概念。等你需要让 Agent 访问企业知识库时再学。
- 微调模型:2026 年的 Agent 开发几乎不需要微调。用函数调用和 prompt 工程就够了。
- LangChain 生态全学:LangChain 太大了,按需学 LangGraph 和 MCP 相关的部分即可。
推荐学习顺序汇总
Day 1-2 → [什么是 Agent] → [设计模式] → [应用场景]
Day 3-5 → [SDK 入门(选一个)] → 写出第一个带工具的 Agent
Day 5-7 → [MCP 协议] → [MCP Server 开发] → [框架选一个开始学]
Day 7-14 → [多 Agent 协作] → [A2A 协议] → [生产化实践]