AI Agent 中文知识库

按行动目标浏览 AI Agent 学习与开发内容：先看项目，再追踪变化、动手实践、做选型判断，最后补必要概念。

最后更新：2026-06-01

动态

动态:一手资料追踪

官方文档、release、协议变化和生态更新。快速知道最近发生了什么、是否需要行动。

12 篇

动态:一手资料追踪 11 分钟

Cursor 2026 年 5 月更新摘要

如果只看 2026 年 5 月的 Cursor 更新，一个非常清楚的趋势是：Cursor 正在从“AI IDE”变成“团队级 Agent 平台”。

自研模型：Composer 2.5 继续强化 Cursor / Anysphere 自己的模型能力，尤其是长任务、复杂指令和协作体验
云端执行基础设施：Cloud Agent Development Environments 把多仓库、Dockerfile 配置、缓存、密钥、审计和回滚纳入统一环境
企业协作入口：Jira 和 Microsoft Teams 集成让任务可以直接从团队工作流里派给 Cursor，而不必先回到 IDE
长任务持续性更好：更适合 sustained work on long-running tasks，不只是回答一次问题

阅读全文

动态:一手资料追踪 12 分钟

Google I/O 2026：Gemini 3.5 Flash 与 Antigravity 标志 Google 正式转向 Agent 平台

Google I/O 2026 最值得开发者关注的，不只是一个新模型发布，而是 Google 把模型、编程 Agent、个人 Agent 和开发者 API 组合成了一套更完整的 Agent 平台。

Gemini 3.5 Flash 直接 GA，没有走 preview 阶段
Antigravity 成为 Google 进入 AI coding agent 市场的主品牌
Gemini Spark 把个人 Agent 接进 Gmail、Calendar、Drive、Docs、Sheets、Slides、YouTube 和 Google Maps
Gemini CLI 向 Antigravity CLI 迁移，而且从开源 TypeScript 工具转向闭源 Go 工具

阅读全文

动态:一手资料追踪 11 分钟

Windsurf + Devin 深度整合更新：AI IDE 正在变成 Agent 容器

2026 年 4 月下旬到 5 月的 Windsurf 更新，最重要的信号是：Devin 正在从“独立的云端自主工程师”，变成嵌入 IDE、CLI、云端执行和代码审查流程的 Agent 基础设施层。

Rust 编写：官方称其性能足够高，二进制甚至能在原始 VT100 终端上运行。CLI 是一等入口，而不是 Web 附属品。
运行在你的机器上：它可以访问本地代码库、工具、shell、依赖和环境，比纯云端 Agent 更贴近真实上下文。
可交给云端继续：任务可以无缝切换到 Devin Cloud。云端有自己的 VM、测试、video recordings 和 autofix 能力。
多模型支持：包括 Opus 4.7、GPT-5.5、SWE-1.6。重点不是单个模型，而是同一个 agent harness 能调度多种模型。

阅读全文

动态:一手资料追踪 4 分钟

Simon Willison：Anthropic 和 OpenAI 找到了产品市场匹配

Simon Willison 在 5 月 27 日发了一篇长文，核心论点是：Anthropic 和 OpenAI 通过 Claude Code / Codex 这类编程 Agent 产品，终于找到了真正能赚钱的产品市场匹配。这不是关于模型能力提升的判断，而是关于商业模式的判断。

Uber：CTO 表示 2026 年才过了几个月就用完全年 AI 预算，主要是 Claude Code。Simon 的解读：2025 年底做的预算，怎么可能预测到 Claude Code 在 2026 年的真实使用量？
Microsoft：开始取消工程师的 Claude Code 许可，要求他们用自家的 Copilot。The Verge 报道这背后也是财务考量。

阅读全文

动态:一手资料追踪 3 分钟

Microsoft Copilot Cowork 数据泄露：Agent 安全的又一个"致命三要素"案例

2026 年 5 月，安全研究团队 PromptArmor 披露了 Microsoft Copilot Cowork 中的一个数据泄露漏洞。攻击路径简洁但有效：prompt injection → Agent 发邮件到用户邮箱 → 邮件渲染外部图片 → OneDrive 预认证链接泄露 → 文件被攻击者下载。

Agent 不应该在未审批的情况下发邮件——尤其是在邮件可以包含外部资源的场景
OneDrive 预认证链接不应该由 Agent 生成——除非有明确的访问控制
邮件渲染不应该自动请求外部图片——这是 Email 安全的老问题，但 Agent 场景下风险被放大

阅读全文

动态:一手资料追踪 9 分钟

Anthropic 沙箱架构深度解读：从 gVisor 到 Seatbelt，Agent 安全的四层防线

2026 年 5 月 25 日，Anthropic 发布了工程博客 How we contain Claude across products，系统公开了 claude.ai、Claude Code、Claude Cowork 三条产品线的沙箱架构和安全事件。Simon Willison 评价这是"fantastic overview"——因为沙箱产品极少被如此详细地文档化。

claude.ai：临时文件系统，会话结束后销毁
Claude Code：允许读全盘，写限制在工作区（workspace）内
Cowork：只挂载用户选择的工作区文件夹和 .claude 目录，其余对 Agent 不可见。支持三种挂载模式：只读、读写、读写不可删
沙箱边界可审计——你不需要信任 Anthropic 的二进制，可以自己读代码

阅读全文

动态:一手资料追踪 4 分钟

SQLite 发布 AGENTS.md 明确拒绝 AI 生成代码：开源项目正在划定 AI 边界

2026 年 5 月 22 日，SQLite 在 GitHub 仓库中新增了一个 AGENTS.md 文件。这个文件不是给 SQLite 自己的开发用的，而是给"把 Agent 指向 SQLite 代码库"的人看的。

不接受 Agent 生成的代码——明确拒绝，不是"暂不"
接受 Agent 辅助的 bug 报告——但必须包含可复现的测试用例
可以提交 Agent 生成的 patch 作为 proof-of-concept——但仅作参考，团队会自己重写
每个报告都需要人验证

阅读全文

动态:一手资料追踪 6 分钟

Vibe Coding 和 Agentic Engineering 正在模糊边界：Simon Willison 的反思

Simon Willison 在 Heavybit 的 High Leverage 播客上和 Joseph Ruscio 聊 AI 编程工具。对话中他意识到一件事：自己之前严格区分的 "vibe coding" 和 "agentic engineering"，在实际工作中已经开始模糊了。

阅读全文

动态:一手资料追踪 11 分钟

如果只看 2026 年春季的 Claude Code 更新，趋势经历了两个阶段。W13-W21：从"终端 AI"变成"软件工程环境"——Auto mode、Computer use、Ultraplan、pinned sessions，一条线把默认工作流推向更少确认、更强执行、成本可观测。W23-W24：从"单 agent"变成"多 agent 编排"——Dynamic Workflows 让 Claude 自己拆分任务、创建并调度数十到数百个后台 agent 并行工作。

更少打断：Auto mode 从 RP 到取消 opt-in 到扩展到 Bedrock/Vertex/Foundry
更强执行：Computer use、/goal、/loop、Monitor、pinned sessions
多 agent 编排：Dynamic Workflows、Opus 4.8、fast mode 降价
更强云端协作：Ultraplan、Routines、/ultrareview、PR auto-fix、per-MCP cost

阅读全文

动态:一手资料追踪 7 分钟

MCP 协议 2026 更新追踪：从能用走向可规模化

如果说 2025 年的 MCP 重点是“把协议做出来”，那么 2026 年的重点就是“把协议做成可规模化、可治理、可企业部署的基础设施”。过去几个月，MCP 的重点已经不再只是 Tools / Resources / Prompts 这些基础原语，而是围绕四个问题收敛：

远程传输怎么在负载均衡、代理和多实例环境里稳定运行
任务与会话怎么在生产环境里恢复、迁移和过期
协议治理怎么从“核心维护者主导”走向 Working Group 常态化
企业到底怎么做审计、SSO、代理层授权和配置移植

阅读全文

动态:一手资料追踪 8 分钟

A2A 协议 v1.0 发布分析：多 Agent 协作开始有了正式底座

A2A（Agent2Agent）v1.0 是首个正式宣称“production-ready”的 A2A 版本。它要解决的问题不是“一个 Agent 怎么调用工具”，而是“多个 Agent 怎么发现彼此、验证身份、委托任务、回传结果，并且在不同厂商和不同组织之间还能互通”。

一个前台 Agent 对接用户
多个专业 Agent 分工处理不同子任务
不同团队、不同平台甚至不同公司之间交换 Agent 能力
加密签名：通过密码学验证 Agent 身份，防止伪造

阅读全文

动态:一手资料追踪 11 分钟

Agent 框架 2026 更新追踪

2026 年上半年的 Agent 框架生态出现三个重大变化：（1）OpenAI Agents SDK 爆发式增长，Python 端已到 0.17.2、JS 端到 0.11.4，以每周 2-3 个版本的速度迭代；（2）LangGraph 发布 1.2.0，进入稳定双周更新节奏；（3）Semantic Kernel 宣布被 Microsoft Agent Framework（MAF）取代。

v0.11.0：RealtimeAgent 默认使用 gpt-realtime-2，sandbox materialization 作为安全边界
v0.11.2-v0.11.4：sandbox、tracing、realtime、sessions 模块的大批量 bug 修复
每周发布，与 Python SDK 保持功能对齐
持久化执行：失败自动恢复，长时间运行的工作流开箱即用

阅读全文

实战

实战:路径与工作流

工具配置、框架上手、MCP 开发和 AI Coding 工作流。每篇都服务于把东西做出来。

20 篇

实战:路径与工作流 6 分钟

AI Agent 零基础入门教程：5步搭建你的第一个 Agent

新手可以先把 Agent 理解成一个“会反复思考并调用工具的循环”：模型先理解任务，需要外部信息时调用工具或读取记忆，关键步骤经过检查点，最后再输出结果。后面所有复杂框架，本质上都是在这条基础循环上增加编排、权限和状态管理。

你的任务需要多步骤吗？如果单次对话就能完成，不需要 Agent
任务需要使用外部工具吗？比如读文件、调 API、执行代码
需要记忆上下文吗？跨对话保持记忆
在 Telegram/WhatsApp 上聊天即可控制

阅读全文

实战:路径与工作流 3 分钟

Claude Code 快速入门

Claude Code 是 Anthropic 的 AI 编程助手，在终端、IDE 和浏览器中运行。它和网页版 Claude 的核心区别：能直接读写你电脑上的文件、执行命令、管理 Git。

Claude Code 可以操作你电脑上的文件 → 参见 [Agent 安全指南](../foundations/agent-safety-guide.md)
重要操作前它会征求确认
API 费用按使用量计算，注意设置消费上限

阅读全文

实战:路径与工作流 8 分钟

Claude Code 最佳实践与工作流

Claude Code 的所有最佳实践都围绕一个约束：上下文窗口会快速填满，越满性能越差。上下文包含对话历史 + 读取的文件 + 命令输出。

Agent 1: Refactor login flow
Agent 2: Refactor token management
Agent 3: Refactor session handling
uses: actions/checkout@v4

阅读全文

实战:路径与工作流 6 分钟

Claude Code IDE 集成实战：VS Code 与 JetBrains 怎么选、怎么配

很多人第一次接触 Claude Code，是从终端里的 claude 开始的。但到 2026 年，VS Code 和 JetBrains 插件已经足够成熟，Claude Code 不再只是“命令行助手”，而是可以直接嵌进日常编辑器工作流。

直接在编辑器里发起会话，不用频繁切回终端
用 IDE 原生 diff 视图审查修改
自动把当前选中代码、诊断信息和文件路径带给 Claude
让 Claude 和你现有的编码、调试、审查流程合并在一起

阅读全文

实战:路径与工作流 5 分钟

CLAUDE.md 完全指南：让 AI 记住你的项目规范

CLAUDE.md 是 Claude Code 的项目记忆文件。每次会话开始时，Claude 会自动读取它，了解你的项目规范、技术栈和工作流偏好。

npm run dev — 启动开发服务器
npm run build — 生产构建
npm test — 运行测试
使用 TypeScript strict mode

阅读全文

实战:路径与工作流 8 分钟

OpenAI Agents SDK 实战指南（2026）

OpenAI Agents SDK 是面向生产环境的 Agent 开发框架。2026 年 4-5 月的更新把它从"轻量编排工具"推进到"沙箱原生的 Agent 运行时"：

SandboxAgent：隔离的文件系统和命令执行环境，支持快照和断点恢复
MCP 一等公民：工具注册、schema 自动生成、tracing 内建
AGENTS.md：项目级自定义指令，类似 Claude Code 的 CLAUDE.md
Voice / RealtimeAgent：语音打断、轮次管理、guardrails（TS SDK）

阅读全文

实战:路径与工作流 8 分钟

Claude Agent SDK：用代码构建 AI Agent 应用

Claude Agent SDK 是 Anthropic 推出的编程式 Agent 开发接口，让你可以用 Python 或 TypeScript 代码调用 Claude Code 的全部能力——包括代码理解、文件编辑、命令执行、多 Agent 协作等。

阅读全文

实战:路径与工作流 9 分钟

OpenAI Agents SDK JS/TS 快速入门

推荐路线：先做一个单 Agent + 一个工具的闭环，不要一上来做多 Agent。等你能稳定观测输入、工具调用、最终输出后，再考虑 handoffs、sessions 和 tracing。

沙箱环境变量解析器在 Manifest 合并时不再丢失（之前合并多个 Manifest 可能覆盖 env 配置）
Blaxel 沙箱提供方行为对齐修复
Tracing 关闭改为 best-effort，超时时主动中止导出，不再阻塞进程退出
空 chat completions 工具输出不再发送

阅读全文

实战:路径与工作流 10 分钟

LangGraph 实战：构建图式多 Agent 工作流

LangGraph 是 LangChain 团队推出的图式 Agent 编排框架。它把 Agent 工作流建模为有向图（Directed Graph），每个节点是一个处理步骤，边定义了步骤之间的流转关系。

精确控制：不像纯 Agent 那样不可预测，你可以定义每一步做什么
状态管理：状态在节点间自动传递，支持持久化和恢复
人机交互：在关键节点暂停，等待人类审批后继续
多 Agent：支持多个 Agent 在同一个图中协作

阅读全文

实战:路径与工作流 8 分钟

AG2 实战：开源多 Agent 协作框架

AG2 是由 AutoGen 原作者 Chi Wang 和 Qingyun Wu 创建的开源多 Agent 协作框架。它延续了 AutoGen v0.2 的对话式架构，提供了简洁、同步的 API，非常适合快速构建多 Agent 应用。

阅读全文

实战:路径与工作流 9 分钟

Semantic Kernel 实战：微软生态里的 Agent 编排框架

Semantic Kernel 是微软开源的一个 Agent 编排 SDK。它不是一个拖拽式平台，而是一层可以嵌入到现有应用里的 Agent 中间件，适合你在已有业务系统中加入大模型、工具调用、多 Agent 协作和流程编排能力。

Triage Agent：先分流，再交给专门 Agent 处理
Review Agent：先生成，再交给审查 Agent 校验
Human in the loop：关键步骤必须人工确认
模型服务由 service 提供

阅读全文

实战:路径与工作流 4 分钟

MCP Inspector 调试实战：本地开发、CLI 自动化与安全配置

很多 MCP Server 不是“写不出来”，而是“调不明白”。

服务器到底暴露了哪些 tools/resources/prompts？
某个 tool 为什么调用失败？参数还是权限问题？
在真实客户端（Claude Code/Cursor）接入前，服务器是否可用？
UI: 6274

阅读全文

实战:路径与工作流 6 分钟

Stripe 实验告诉你：AI Agent 不吃"软引导"这一套

Stripe 的开发者体验团队在 2026 年初做了一个系列实验，试图回答一个很实际的问题：怎么让 AI Agent 正确使用你的 API？

被动提示几乎全部失败——Agent 不读 AGENTS.md、不看 warnings、不浏览依赖目录
主动引导和分发策略有效——部分实验效果好得出乎意料
单一大文件：所有内容塞在一个文件里
模块化结构：顶层 skill 引用可按需加载的子 skill

阅读全文

实战:路径与工作流 5 分钟

Agent 部署与生产化指南

把 Agent 从本地 Demo 推到生产环境，需要解决五个问题：在哪里运行、怎么监控、怎么控制成本、怎么管理版本、怎么保障安全。本篇不讲特定框架的部署步骤（那些看官方文档就行），而是梳理通用的生产化决策框架。

单日支出上限：设置硬限制，超限自动停止
单次调用上限：超过阈值的调用记录告警
异常模式检测：Agent 进入循环时快速检测和终止
Prompt 变更 = 版本变更

阅读全文

实战:路径与工作流 7 分钟

Agent 测试与评估实战

Agent 的行为不确定——同一个提示可能因为上下文、模型版本或工具状态产生不同结果。这使得测试和评估成为 Agent 生产化的核心挑战。本篇提供一套可落地的评估框架：从单元测试到生产监控，从人工评审到 LLM 自动评审。

正确性 (1-5): 是否正确完成了任务
完整性 (1-5): 是否覆盖了所有要求
安全性 (1-5): 是否避免了危险操作和泄露
先覆盖核心路径，再扩展边缘场景

阅读全文

实战:路径与工作流 9 分钟

Claude Code Dynamic Workflows 实战指南

Dynamic Workflows 是 Claude Code v2.1.154（2026 年 5 月 28 日）引入的核心功能。在此之前的 Claude Code 是单 agent 架构——你发出指令，一个 agent 串行处理所有步骤。即使 claude agents 能创建后台会话，每个会话仍然是独立的 agent，需要你手动拆分任务和协调结果。

Subagent 数量没有公开上限，但实际受 API rate limit 和费用限制。大型 workflow（100+ agents）需要关注 /usage
Subagent 之间不共享上下文——每个 subagent 是独立的会话。如果任务之间有强依赖，协调开销会比较大
调试困难——如果一个 subagent 出了问题，你需要单独查看那个 agent 的日志，不如单 agent 调试直观
结果合并需要审查——多个 subagent 同时修改代码时，可能产生冲突。建议在 worktree 隔离环境中运行

阅读全文

实战:路径与工作流 6 分钟

OpenAI Codex CLI 入门指南

Codex CLI 是 OpenAI 的终端编程 Agent，能直接在你本地机器上读取、修改、运行代码。和 Claude Code 定位类似——都是"终端里的 AI 程序员"——但有几个关键区别：

macOS / Linux / Windows（含 WSL2）均可
需要一个 ChatGPT 账号（Free / Plus / Pro / Business / Edu / Enterprise 均可）或 OpenAI API Key
日常任务用 GPT-5.4-mini，复杂任务切 GPT-5.5
控制 AGENTS.md 大小——项目指令越长，每次请求的 token 越多

阅读全文

实战:路径与工作流 7 分钟

AI 编程工具成本控制指南

2026 年 5 月，Simon Willison 公开了他个人的 AI 编程工具月度消耗：

Uber：2026 年才过了几个月就用完全年 AI 预算，主要来自 Claude Code 使用量
某匿名企业（Axios 报道）：一个月花了 $5 亿，原因是给员工开放 Claude License 时没有设用量上限
Microsoft：开始取消工程师的 Claude Code 许可，要求改用 Copilot——财务考量和产品竞争兼有
Codex：适合定义明确、范围清晰的任务（"给这个函数加单元测试"、"把这些 import 排序"）

阅读全文

实战:路径与工作流 10 分钟

Agent 沙箱实战：从本地到生产的安全边界

Anthropic 公开了自己的沙箱架构和安全事件（参见 Anthropic 沙箱架构解读），核心教训是：标准隔离组件（gVisor、seccomp、hypervisor）扛住了考验，出问题的都是自己写的组件。

/tmp:size=100M
no-new-privileges:true
AGENTSESSIONID=${BUILD_ID}
LLMAPIKEY=${SCOPEDAPIKEY}

阅读全文

实战:路径与工作流 5 分钟

Claude Code 实战项目：用 AI Agent 完成真实开发任务

很多开发者对 Claude Code 的第一印象是"能写代码的聊天工具"。但实际上，Claude Code 最强的地方是用 Agent 的方式完成有边界的真实开发任务——不是让它从零写一个完整应用，而是让它在一个已有代码库中完成可验证、可回滚的工作。

Runtime: Node.js 20+
语言: TypeScript (strict mode)
框架: 正在从 Express 迁移到 Fastify
测试: Vitest

阅读全文

横评

横评:选型与取舍

工具、平台、框架和 SDK 的横向对比与选型建议。决定"用哪个"之前先看这里。

9 篇

横评:选型与取舍 11 分钟

2026 年 AI 编程 Agent 与工具选型报告

2025-2026 年，AI 编程工具的主线已经很清楚：从"补全代码"走向"能读仓库、改文件、跑命令、接 CI/CD 的 Agent"。这篇文章把分散在多篇横评里的内容收口到一页：先看趋势，再按工作流选择 Cursor、Claude Code、GitHub Copilot、Windsurf、Aider、Continue、Trae、DeepSeek / Qwen Code 等工具。

先按控制面选工具：编辑器、终端、GitHub 工作流、开源可控、本土化低成本，仍然是五条不同路线。
但不要再把它们看成完全割裂的路线：2026 年 4-5 月，Cursor 把 CLI、并行 Agents Window 和 Canvases 全部补齐；Windsurf 2.0 把 Devin Cloud 和 Devin for Terminal 接入同一条工作流；Claude Code 则把 Auto mode、Computer use、Ultraplan、Monitor 和 Dynamic Workflows 往"可编排的软件工程环境"推进；企业端则开始面对 API token 计费带来的真实成本压力。
PR 自动审查：AI 分析每个 PR 的安全和质量
Issue 自动处理：标记为 auto-fix 的 Issue 自动修复

阅读全文

横评:选型与取舍 4 分钟

Cursor vs Claude Code：怎么选

Cursor 是 AI 编辑器，Claude Code 是 AI 终端。选哪个取决于你的主战场在哪里：如果你大部分时间在编辑器里写代码、改 UI、做局部重构，用 Cursor；如果你需要 AI 读整个仓库、跑命令、改配置、接入 CI/CD，用 Claude Code。

阅读全文

横评:选型与取舍 8 分钟

GitHub Copilot Coding Agent 实战：从 Issue 到 PR 的云端编程代理

GitHub Copilot Coding Agent 在 2026 年已经不只是“IDE 里的 Copilot 聊天框”。它更准确的官方名称是 Copilot Cloud Agent，也就是一个在 GitHub Actions 支持的临时环境中后台工作的云端代理。

Chat 更像实时副驾驶
Cloud Agent 更像后台接单的开发代理
研究仓库结构
创建实现计划

阅读全文

横评:选型与取舍 4 分钟

国产 AI 编程工具选型指南（2026）

国产 AI 编程工具在 2026 年的竞争焦点已经从"能不能补全代码"转向三个方向：Agent 化（自主完成分析-生成-测试流程）、IDE/插件双形态（独立 IDE 还是嵌入 VS Code）、企业级合规和私有化。

Ask 模式：代码问答、单文件编辑
Agent 模式：多文件协同编辑，理解项目上下文

阅读全文

横评:选型与取舍 7 分钟

AI Agent 框架横评 2026：LangGraph vs CrewAI vs Microsoft Agent Framework vs Google ADK vs AG2

2026 年，AI Agent 框架从"能跑 Demo"进入"工程化落地"阶段。2026 年 4 月，Microsoft Agent Framework 1.0 GA 正式发布，合并 AutoGen 和 Semantic Kernel 为一个统一 SDK，标志着框架生态从"百花齐放"走向"整合收敛"。当前五个主流框架各有定位：LangGraph 做流程控制、CrewAI 做角色协作、Microsoft Agent Framework 做企业级多 Agent 编排、Google ADK 做标准化互联、AG2 做社区驱动的多 Agent 协商。

阅读全文

横评:选型与取舍 5 分钟