实战:路径与工作流 6 分钟
新手可以先把 Agent 理解成一个“会反复思考并调用工具的循环”:模型先理解任务,需要外部信息时调用工具或读取记忆,关键步骤经过检查点,最后再输出结果。后面所有复杂框架,本质上都是在这条基础循环上增加编排、权限和状态管理。
- 你的任务需要多步骤吗? 如果单次对话就能完成,不需要 Agent
- 任务需要使用外部工具吗? 比如读文件、调 API、执行代码
- 需要记忆上下文吗? 跨对话保持记忆
- 在 Telegram/WhatsApp 上聊天即可控制
实战:路径与工作流 3 分钟
Claude Code 是 Anthropic 的 AI 编程助手,在终端、IDE 和浏览器中运行。它和网页版 Claude 的核心区别:能直接读写你电脑上的文件、执行命令、管理 Git。
- Claude Code 可以操作你电脑上的文件 → 参见 [Agent 安全指南](../foundations/agent-safety-guide.md)
- 重要操作前它会征求确认
- API 费用按使用量计算,注意设置消费上限
实战:路径与工作流 8 分钟
Claude Code 的所有最佳实践都围绕一个约束:上下文窗口会快速填满,越满性能越差。上下文包含对话历史 + 读取的文件 + 命令输出。
- Agent 1: Refactor login flow
- Agent 2: Refactor token management
- Agent 3: Refactor session handling
- uses: actions/checkout@v4
实战:路径与工作流 6 分钟
很多人第一次接触 Claude Code,是从终端里的 claude 开始的。但到 2026 年,VS Code 和 JetBrains 插件已经足够成熟,Claude Code 不再只是“命令行助手”,而是可以直接嵌进日常编辑器工作流。
- 直接在编辑器里发起会话,不用频繁切回终端
- 用 IDE 原生 diff 视图审查修改
- 自动把当前选中代码、诊断信息和文件路径带给 Claude
- 让 Claude 和你现有的编码、调试、审查流程合并在一起
实战:路径与工作流 5 分钟
CLAUDE.md 是 Claude Code 的项目记忆文件。每次会话开始时,Claude 会自动读取它,了解你的项目规范、技术栈和工作流偏好。
- npm run dev — 启动开发服务器
- npm run build — 生产构建
- npm test — 运行测试
- 使用 TypeScript strict mode
实战:路径与工作流 8 分钟
OpenAI Agents SDK 是面向生产环境的 Agent 开发框架。2026 年 4-5 月的更新把它从"轻量编排工具"推进到"沙箱原生的 Agent 运行时":
- SandboxAgent:隔离的文件系统和命令执行环境,支持快照和断点恢复
- MCP 一等公民:工具注册、schema 自动生成、tracing 内建
- AGENTS.md:项目级自定义指令,类似 Claude Code 的 CLAUDE.md
- Voice / RealtimeAgent:语音打断、轮次管理、guardrails(TS SDK)
实战:路径与工作流 8 分钟
Claude Agent SDK 是 Anthropic 推出的编程式 Agent 开发接口,让你可以用 Python 或 TypeScript 代码调用 Claude Code 的全部能力——包括代码理解、文件编辑、命令执行、多 Agent 协作等。
实战:路径与工作流 9 分钟
推荐路线:先做一个单 Agent + 一个工具的闭环,不要一上来做多 Agent。等你能稳定观测输入、工具调用、最终输出后,再考虑 handoffs、sessions 和 tracing。
- 沙箱环境变量解析器在 Manifest 合并时不再丢失(之前合并多个 Manifest 可能覆盖 env 配置)
- Blaxel 沙箱提供方行为对齐修复
- Tracing 关闭改为 best-effort,超时时主动中止导出,不再阻塞进程退出
- 空 chat completions 工具输出不再发送
实战:路径与工作流 10 分钟
LangGraph 是 LangChain 团队推出的图式 Agent 编排框架。它把 Agent 工作流建模为有向图(Directed Graph),每个节点是一个处理步骤,边定义了步骤之间的流转关系。
- 精确控制:不像纯 Agent 那样不可预测,你可以定义每一步做什么
- 状态管理:状态在节点间自动传递,支持持久化和恢复
- 人机交互:在关键节点暂停,等待人类审批后继续
- 多 Agent:支持多个 Agent 在同一个图中协作
实战:路径与工作流 8 分钟
AG2 是由 AutoGen 原作者 Chi Wang 和 Qingyun Wu 创建的开源多 Agent 协作框架。它延续了 AutoGen v0.2 的对话式架构,提供了简洁、同步的 API,非常适合快速构建多 Agent 应用。
实战:路径与工作流 9 分钟
Semantic Kernel 是微软开源的一个 Agent 编排 SDK。它不是一个拖拽式平台,而是一层可以嵌入到现有应用里的 Agent 中间件,适合你在已有业务系统中加入大模型、工具调用、多 Agent 协作和流程编排能力。
- Triage Agent:先分流,再交给专门 Agent 处理
- Review Agent:先生成,再交给审查 Agent 校验
- Human in the loop:关键步骤必须人工确认
- 模型服务由 service 提供
实战:路径与工作流 4 分钟
很多 MCP Server 不是“写不出来”,而是“调不明白”。
- 服务器到底暴露了哪些 tools/resources/prompts?
- 某个 tool 为什么调用失败?参数还是权限问题?
- 在真实客户端(Claude Code/Cursor)接入前,服务器是否可用?
- UI: 6274
实战:路径与工作流 6 分钟
Stripe 的开发者体验团队在 2026 年初做了一个系列实验,试图回答一个很实际的问题:怎么让 AI Agent 正确使用你的 API?
- 被动提示几乎全部失败——Agent 不读 AGENTS.md、不看 warnings、不浏览依赖目录
- 主动引导和分发策略有效——部分实验效果好得出乎意料
- 单一大文件:所有内容塞在一个文件里
- 模块化结构:顶层 skill 引用可按需加载的子 skill
实战:路径与工作流 5 分钟
把 Agent 从本地 Demo 推到生产环境,需要解决五个问题:在哪里运行、怎么监控、怎么控制成本、怎么管理版本、怎么保障安全。本篇不讲特定框架的部署步骤(那些看官方文档就行),而是梳理通用的生产化决策框架。
- 单日支出上限:设置硬限制,超限自动停止
- 单次调用上限:超过阈值的调用记录告警
- 异常模式检测:Agent 进入循环时快速检测和终止
- Prompt 变更 = 版本变更
实战:路径与工作流 7 分钟
Agent 的行为不确定——同一个提示可能因为上下文、模型版本或工具状态产生不同结果。这使得测试和评估成为 Agent 生产化的核心挑战。本篇提供一套可落地的评估框架:从单元测试到生产监控,从人工评审到 LLM 自动评审。
- 正确性 (1-5): 是否正确完成了任务
- 完整性 (1-5): 是否覆盖了所有要求
- 安全性 (1-5): 是否避免了危险操作和泄露
- 先覆盖核心路径,再扩展边缘场景
实战:路径与工作流 9 分钟
Dynamic Workflows 是 Claude Code v2.1.154(2026 年 5 月 28 日)引入的核心功能。在此之前的 Claude Code 是单 agent 架构——你发出指令,一个 agent 串行处理所有步骤。即使 claude agents 能创建后台会话,每个会话仍然是独立的 agent,需要你手动拆分任务和协调结果。
- Subagent 数量没有公开上限,但实际受 API rate limit 和费用限制。大型 workflow(100+ agents)需要关注 /usage
- Subagent 之间不共享上下文——每个 subagent 是独立的会话。如果任务之间有强依赖,协调开销会比较大
- 调试困难——如果一个 subagent 出了问题,你需要单独查看那个 agent 的日志,不如单 agent 调试直观
- 结果合并需要审查——多个 subagent 同时修改代码时,可能产生冲突。建议在 worktree 隔离环境中运行
实战:路径与工作流 6 分钟
Codex CLI 是 OpenAI 的终端编程 Agent,能直接在你本地机器上读取、修改、运行代码。和 Claude Code 定位类似——都是"终端里的 AI 程序员"——但有几个关键区别:
- macOS / Linux / Windows(含 WSL2)均可
- 需要一个 ChatGPT 账号(Free / Plus / Pro / Business / Edu / Enterprise 均可)或 OpenAI API Key
- 日常任务用 GPT-5.4-mini,复杂任务切 GPT-5.5
- 控制 AGENTS.md 大小——项目指令越长,每次请求的 token 越多
实战:路径与工作流 7 分钟
2026 年 5 月,Simon Willison 公开了他个人的 AI 编程工具月度消耗:
- Uber:2026 年才过了几个月就用完全年 AI 预算,主要来自 Claude Code 使用量
- 某匿名企业(Axios 报道):一个月花了 $5 亿,原因是给员工开放 Claude License 时没有设用量上限
- Microsoft:开始取消工程师的 Claude Code 许可,要求改用 Copilot——财务考量和产品竞争兼有
- Codex:适合定义明确、范围清晰的任务("给这个函数加单元测试"、"把这些 import 排序")
实战:路径与工作流 10 分钟
Anthropic 公开了自己的沙箱架构和安全事件(参见 Anthropic 沙箱架构解读),核心教训是:标准隔离组件(gVisor、seccomp、hypervisor)扛住了考验,出问题的都是自己写的组件。
- /tmp:size=100M
- no-new-privileges:true
- AGENTSESSIONID=${BUILD_ID}
- LLMAPIKEY=${SCOPEDAPIKEY}
实战:路径与工作流 5 分钟
很多开发者对 Claude Code 的第一印象是"能写代码的聊天工具"。但实际上,Claude Code 最强的地方是用 Agent 的方式完成有边界的真实开发任务——不是让它从零写一个完整应用,而是让它在一个已有代码库中完成可验证、可回滚的工作。
- Runtime: Node.js 20+
- 语言: TypeScript (strict mode)
- 框架: 正在从 Express 迁移到 Fastify
- 测试: Vitest