横评:选型与取舍

2026 年 AI Agent 基础设施全景报告:框架、协议、工具链与六个正在发生的趋势


概述

2026 年的 AI Agent 生态已经不是一个"选哪个框架"的问题,而是一整套基础设施的成型。从 2025 年底的"百花齐放"到 2026 年中的"收敛与分层",Agent 开发的基础设施经历了三个关键变化:

  1. 框架分层清晰化:不再是"谁功能多谁赢",而是每个框架锁死了自己的生态位
  2. 协议标准确立:MCP 从 Anthropic 的内部实验变成 Linux Foundation 下的行业标准,A2A 从 Google 的提案变成 v1.0 正式协议
  3. 企业落地加速:从 Demo 到生产的路径不再是"有没有",而是"选哪条"

这篇文章不提供"学 Agent 的路线图",而是回答一个更具体的问题:如果你要在 2026 年做一个 Agent 项目,你应该基于什么样的基础设施来做判断?

AI 编程 Agent 全景报告 互补:那篇聚焦"用什么工具写代码",这篇聚焦"用什么基础设施做 Agent"。


核心数据

框架生态规模(2026 年 6 月)

指标 数据
LangGraph GitHub Stars 126,000+
CrewAI GitHub Stars 44,600+
CrewAI 企业采用 ~60% Fortune 500
OpenAI Agents SDK 版本迭代 半年 40+ 版本(0.1.0 → 0.17.2)
MCP 月 SDK 下载量 9,700 万(2026 年 3 月 Anthropic 报告)
MCP 注册服务器数 9,652(2026 年 5 月官方 Registry)
MCP 宿主平台覆盖 6 个主流平台(Claude Desktop、Claude Code、Cursor、Codex CLI、Windsurf、VS Code/Copilot)
A2A v1.0 发布时间 2026 年 5 月 20 日

企业采用信号

公司 采用方式 公开信号
Stripe Minions(自研 coding agents)+ Claude Fable 5 1 天完成 5000 万行 Ruby 迁移
Fountain Claude Code 辅助开发 开发速度提升 50%
Rakuten 自主 Agent 模式 7 小时无人值守完成大型任务
TELUS 企业级 AI 编程 累计节省 500,000 小时
Anthropic(内部) Claude Code 7.9 万行代码由 Claude 生成

趋势一:框架从"功能竞赛"到"生态位锁定"

2025 年的框架选择是"谁功能多选谁",2026 年变成了"你的场景是什么,就选对应的框架"。

五个框架的锁定态

框架 生态位 什么时候选它 什么时候不选
LangGraph 状态机 / 图编排 需要强流程控制、可审计的生产任务 快速原型、角色分工直觉
CrewAI 角色分工 / 团队协作 快速原型、内容生产、研究写作 需要复杂状态管理的生产系统
Microsoft Agent Framework 企业级多 Agent 编排 Azure/微软生态、统一 AutoGen+SK 非微软技术栈的轻量项目
Google ADK 标准化互联 runtime Google Cloud 生态、多语言、A2A 互联 非 GCP 的快速迭代
OpenAI Agents SDK 快速上手 / 沙箱安全 需要最快出 Demo、沙箱隔离执行 复杂多 Agent 编排、深度定制

关键变化:Microsoft 于 2026 年 4 月将 AutoGen 置为 maintenance mode,官方推荐新项目使用 Microsoft Agent Framework。这不是"AutoGen 死了",而是"微软把两条线合并成一条"。

一个容易被忽略的信号

OpenAI Agents SDK 的爆发式增长不只是"OpenAI 的品牌效应"。半年 40+ 版本迭代的速度,加上 SandboxAgent(容器化执行)和 RealtimeAgent(语音 Agent),说明 OpenAI 正在把 Agent 开发从"调用 API"变成"完整的开发环境"。

但这也有一个陷阱:OpenAI Agents SDK 的快速迭代意味着 breaking changes 频繁。如果你在做生产级项目,需要比 LangGraph 更频繁地跟进版本更新。


趋势二:MCP 从"工具连接器"到"基础设施层"

MCP 在 2026 年已经不是一个"给 Claude Desktop 装插件"的协议,而是一套正在标准化 Agent 与外部世界交互方式的基础设施。

数据背后的三个信号

信号 1:下载量的爆发

9,700 万月下载量(2026 年 3 月)意味着 MCP SDK 已经成为 AI 开发的事实标准之一。这个数字的背后是:每个使用 Claude Desktop、Cursor、VS Code Copilot 的开发者,都在间接使用 MCP。

信号 2:治理结构的成熟

2025 年 12 月 MCP 加入 Linux Foundation 的 Agentic AI Foundation,OpenAI 和 Block 作为联合创始项目加入,AWS、Google、Microsoft、Cloudflare、GitHub、Bloomberg 为支持成员。

这不是"Anthropic 把 MCP 捐出去了",而是"MCP 从一个公司的内部协议变成了行业共识"。Working Groups 已经覆盖 Transports、Auth、Registry、Server Card、Agents 五个领域,SEP(Specification Enhancement Proposals)的提出和审查流程已经运转。

信号 3:从 stdio 到 Streamable HTTP 的迁移

2026 年的最大技术变化不是功能增加,而是传输协议的成熟。Streamable HTTP 完全取代了旧版 HTTP+SSE,远程 MCP Server 的部署从"实验性质"变成"生产可行"。

但这还留下一个缺口:跨多实例无状态运行、会话的创建/恢复/迁移语义。2026 roadmap 的 Transports WG 正在解决,如果你在做远程 MCP Server,不能只把 stdio 服务器"包一层 HTTP"就算完工。


趋势三:A2A 让多 Agent 协作有了正式底座

A2A v1.0(2026 年 5 月 20 日)的发布不是"又一个协议",而是填补了 MCP 无法覆盖的空缺。

MCP 管不了的事

MCP 解决的是"一个 Agent 怎么调用工具和数据"。但当你的系统需要:

  • 一个前台 Agent 对接用户,多个专业 Agent 分工处理子任务
  • 不同团队、不同平台甚至不同公司之间交换 Agent 能力
  • Agent 之间的任务委托、结果回传、身份验证

MCP 无能为力。A2A 解决的就是这个。

A2A 的三个核心设计

签名 Agent Card:每个 Agent 有一个可验证的元数据卡片,描述自己的能力、认证方式、传输协议。其他 Agent 可以在不建立连接的情况下发现这个 Agent 能做什么。

任务委托协议:不是简单的 RPC 调用,而是完整的任务生命周期——创建、更新、完成、取消、错误处理。

跨厂商互通:Google ADK 原生支持,Anthropic 和 OpenAI 的 SDK 正在跟进。

判断:A2A 当前的企业采用还处于早期,但 v1.0 的发布意味着"多 Agent 协作"从一个概念变成了一个可以工程化的标准。如果你的项目涉及 3 个以上的 Agent 协作,A2A 不再是"未来考虑",而是"现在该了解"。


趋势四:Claude Code 从"终端工具"到"编排引擎"

2026 年春季的 Claude Code 更新,如果用一句话概括:它不再是让你更快写代码的工具,而是让你指挥一群 Agent 完成工程的编排层。

Dynamic Workflows 改变了什么

之前的 Claude Code 是单 Agent 架构——你发出指令,一个 Agent 串行处理所有步骤。Dynamic Workflows(v2.1.154,2026 年 5 月 28 日)引入后:

  • 你描述目标,Claude 自动拆解任务
  • 为每个子任务创建独立的 subagent
  • 分配到后台并行运行
  • 监控进度,协调结果,处理失败

这不是"更快的 Claude Code",而是"不同类别的工具"。

Auto mode 的沉默革命

Auto mode 从 W13(2026 年 3 月)的 research preview 到 W22 取消 opt-in 要求,再到 W24 扩展到 Bedrock、Vertex、Foundry——这个过程几乎是"静默上线"的。

但它改变的默认工作方式是巨大的:Claude Code 从"每一步都需要你确认"变成"高风险操作才打断你"。配合 Dynamic Workflows,意味着你描述一个目标后,Claude 可以自主完成整个工作流,只在关键节点请求你的判断。


趋势五:评估从"可选项"变成"必选项"

2026 年,没有评估体系的 Agent 项目几乎不可能上线。

为什么评估变得不可回避

Agent 的不确定性本质意味着:同样的输入,两次运行可能得到不同的结果。没有评估,你就不知道"改了 prompt 之后是变好了还是变坏了"。

三层评估框架的行业共识

层级 评估什么 主流方法
单元评估 单步工具调用、单轮输出 断言、规则检查
端到端评估 完整任务完成度 黄金数据集、LLM-as-judge
系统评估 成本、延迟、可靠性 基准测试、监控告警

SWE-Bench 已经成为代码 Agent 的事实标准评估基准。但更广泛的 Agent 评估还没有统一标准,各团队仍在探索适合自己的方法。


趋势六:安全从"事后补丁"到"架构设计"

2026 年的 Agent 安全讨论不再是"怎么防 prompt injection",而是"怎么从架构上隔离风险"。

三个架构级安全设计

沙箱执行:Anthropic 开源了 sandbox-runtime,OpenAI Agents SDK 的 SandboxAgent 在容器化环境中操作文件系统。Agent 的执行不再直接在宿主机上运行。

权限最小化:MCP 的 OAuth 2.1 + PKCE 授权链路经历了三轮收紧,从 Dynamic Client Registration 到 Client ID Metadata Documents,远程 MCP 的权限模型终于有了标准化抓手。

审计与可追溯:LangGraph 的 checkpoint 机制、Claude Code 的 per-MCP cost 追踪、Anthropic 的"How we contain Claude"工程博客——都在传递同一个信号:Agent 的行为必须可追溯。


选型建议:2026 年的 Agent 技术栈

场景 推荐组合 理由
快速原型 / 个人项目 OpenAI Agents SDK + MCP 最快出 Demo,工具生态丰富
生产级编排 LangGraph + MCP + A2A 状态管理 + 工具连接 + 多 Agent 协作
微软生态企业 Microsoft Agent Framework + Azure 原生集成,企业级合规
内容/研究 Agent CrewAI + MCP 角色分工直觉,快速迭代
终端优先工程 Claude Code + Dynamic Workflows 从 CLI 到多 Agent 编排的无缝过渡

下一步阅读