概念:必要基础

AI Agent 开发学习路线图:从函数调用到多 Agent 系统

更新 原创整合
标签
learning-pathfoundationsroadmap

概述

学 Agent 开发最大的陷阱是一上来就选框架、写代码。正确的顺序是先理解"为什么需要 Agent",再从最小可用的系统开始,逐步叠加工具调用、协议对接、状态管理和多 Agent 协作。

本篇把学习路径拆成 4 个阶段,每个阶段有明确的学完标志和推荐阅读。全部读完大约需要 2-4 周(取决于你每天能投入多少时间)。


四阶段路线图

AI Agent 开发四阶段学习路径:从概念判断到多 Agent 生产系统

四个阶段从左到右递进,每个阶段解锁新的能力:阶段 1 学会判断任务该停在哪个层级,阶段 2 写出第一个能调工具的 Agent,阶段 3 掌握 MCP 协议并选一个框架,阶段 4 构建多 Agent 系统并处理生产化问题。下面逐个拆解。


阶段 1:概念与判断(2-3 天)

目标:能判断一个任务该用"单次调用 / Workflow / Agent"哪个层级。

必读

  1. 什么是 AI Agent — 理解三层心智模型:单次调用 → 工作流 → Agent Loop
  2. Agent 设计模式 — 从 Single Call 到 Agent Loop 的模式阶梯,以及什么时候该停在简单模式
  3. Agent 应用场景 — 20+ 个真实场景分类,帮你判断自己的需求属于哪一类

学完标志

  • 能用一句话说明 Agent 和普通 LLM 调用的区别
  • 看到一个需求时,能判断是否真的需要 Agent(很多人的第一反应是"加 Agent",但很多任务用单次调用 + 串联就够了)
  • 理解 安全护栏 的基本概念:权限分级、人工确认、成本控制

阶段 2:函数调用实战(3-5 天)

目标:用 SDK 写出第一个能调用工具的 Agent。

这是整个路线最关键的一步。不要跳到框架,先理解函数调用(Function Calling)是 Agent 的底层原语。

核心概念

用户请求 → LLM 判断需要调用工具 → 返回工具调用意图
         → 执行工具 → 工具结果回传 LLM
         → LLM 基于结果继续推理 → 最终输出

推荐 SDK 入口

SDK 语言 适合 入口
OpenAI Agents SDK Python OpenAI 模型用户 入门教程
Claude Agent SDK Python/TS Claude 模型用户 Agent SDK
Google ADK Python/Java/Go/JS Google Cloud 用户 Google ADK 官方文档

最小可运行示例(Python + OpenAI)

from agents import Agent, Runner, function_tool

@function_tool
def get_weather(city: str) -> str:
    """获取指定城市的天气"""
    # 实际项目中这里调用天气 API
    return f"{city}:晴,25°C"

agent = Agent(
    name="weather_agent",
    instructions="你是一个天气助手,用中文回答。",
    tools=[get_weather],
)

result = Runner.run_sync(agent, "北京今天天气怎么样?")
print(result.final_output)
# → "北京今天天气:晴,25°C。适合出门活动。"

学完标志

  • 能从零写出一个带 1-2 个工具的 Agent
  • 理解 function_tool 装饰器 / tools 参数的语义
  • 知道为什么工具的 docstring 和参数描述很重要(LLM 靠这些决定何时调用)

阶段 3:MCP 协议 + 框架选型(5-7 天)

目标:理解 MCP 协议的作用,选一个框架构建有状态的工作流。

为什么需要 MCP?

阶段 2 的工具是硬编码在代码里的。当你的 Agent 需要访问数据库、调用外部 API、读取文件时,每加一个工具就要改代码、重新部署。

MCP(Model Context Protocol)解决的是工具标准化的问题:

没有 MCP:每个 Agent 自己定义工具接口 → 工具无法复用
有了 MCP:工具按 MCP 协议暴露 → 任何 MCP 客户端都能调用

这类似于 USB 接口标准化之前,每个外设都有自己的接口;标准化之后,任何设备都能插任何电脑。

推荐阅读顺序

  1. MCP 协议入门 — 理解协议的三个原语:Tools、Resources、Prompts
  2. MCP Server 开发实战 — 从零写一个 MCP Server
  3. MCP Inspector 使用 — 调试 MCP Server 的官方工具
  4. MCP Server 生态 — 社区已有的 MCP Server 清单

框架选型

学完 MCP 后,你需要一个框架来编排多个 Agent 和工具的协作:

场景 推荐 教程
需要精细控制状态流转 LangGraph LangGraph 指南
多 Agent 编排 + 快速上手 CrewAI CrewAI 官方文档
Google Cloud 环境 Google ADK Google ADK 官方文档
.NET/Azure 企业环境 Semantic Kernel SK 指南
完整对比 框架横评

学完标志

  • 能写出一个 MCP Server 并用 Inspector 调试
  • 理解 MCP 的 Tools / Resources / Prompts 三种原语的适用场景
  • 选定了 1 个主框架并跑通了官方 Quickstart

阶段 4:多 Agent 协作与生产化(7-14 天)

目标:构建能处理真实业务场景的多 Agent 系统。

多 Agent 的三种模式

模式 A:串行流水线
Agent A → Agent B → Agent C
适合:研究 → 写作 → 审核 这类线性流程

模式 B:路由分发
Router Agent → Agent A(简单问题)
             → Agent B(复杂问题)
             → Agent C(技术问题)
适合:客服、工单分类

模式 C:协作讨论
Agent A ↔ Agent B ↔ Agent C(共享上下文)
适合:代码审查、头脑风暴、复杂决策

关键协议

  • MCP:管工具(Agent → 外部工具的标准化接口)
  • A2A:管协作(Agent → Agent 的发现和通信)

→ 详见 A2A 协议入门

生产化必须考虑的问题

问题 解决方案 参考
Agent 调用失控 权限分级 + 人工确认 安全指南
状态丢失 框架 checkpoint 机制 框架更新
成本爆炸 Token 预算 + 用量监控 安全指南
调试困难 日志 + Tracing 框架横评
多 Agent 互操作 MCP(工具层)+ A2A(Agent 层) A2A 协议

学完标志

  • 用选定的框架构建了一个 2-3 个 Agent 协作的系统
  • 实现了 checkpoint(断点恢复)和基本的安全护栏
  • 理解 MCP 和 A2A 分别解决什么层面的问题

不在这条路线上的东西

以下是常见的学习弯路,本路线刻意跳过:

  • RAG(检索增强生成):重要,但它是"数据层"的问题,不是 Agent 核心概念。等你需要让 Agent 访问企业知识库时再学。
  • 微调模型:2026 年的 Agent 开发几乎不需要微调。用函数调用和 prompt 工程就够了。
  • LangChain 生态全学:LangChain 太大了,按需学 LangGraph 和 MCP 相关的部分即可。

推荐学习顺序汇总

Day 1-2   → [什么是 Agent] → [设计模式] → [应用场景]
Day 3-5   → [SDK 入门(选一个)] → 写出第一个带工具的 Agent
Day 5-7   → [MCP 协议] → [MCP Server 开发] → [框架选一个开始学]
Day 7-14  → [多 Agent 协作] → [A2A 协议] → [生产化实践]