什么是 AI Agent?零基础入门指南
AI Agent 不是“更会聊天的 ChatGPT”,而是一个能围绕目标反复推理、调用工具、读取上下文、根据结果继续行动的系统。
- Workflow 的路线主要由人写好的代码决定。
- Agent 的路线更多由模型根据中间结果决定。
- 路线越自由,越需要测试、权限控制、日志和人工确认。
- 任务是开放式的,很难提前写死所有步骤。
实践中查漏补缺的基础知识:Agent 是什么、核心模式、协议、工具调用和记忆。按需阅读,不必从头到尾。
8 篇 · 最后更新:2026-05-16
AI Agent 不是“更会聊天的 ChatGPT”,而是一个能围绕目标反复推理、调用工具、读取上下文、根据结果继续行动的系统。
很多人以为 AI Agent 只是程序员的工具,其实不是。今天的 Agent 已经可以通过自然语言对话来完成大量日常任务,任何人都能上手。
Agent 模式不是越复杂越高级。一个可靠的系统,通常从单次调用开始,逐步增加工具、流程、并行、评估和自主性。
AI Agent 和普通聊天机器人的最大差别是:它不只生成文字,还可能读取文件、调用工具、访问网页、发送消息、修改数据。能力越强,误操作和被诱导的风险也越大。
Model Context Protocol(MCP) 是 Anthropic 于 2024 年 11 月发布的开放协议,旨在解决 LLM 与外部工具和数据源的集成问题。2025 年,MCP 被捐赠给 Linux 基金会,成为行业标准。
A2A(Agent2Agent Protocol)是面向 Agent 与 Agent 之间通信的开放标准,让不同厂商、不同框架、不同部署位置的 Agent 可以互相发现、通信和协作。
Tool Use(也叫 Function Calling)让 LLM 不只是生成文本,还能调用外部工具。这是 Agent 从"只能聊天"变成"能做事"的关键能力。
没有记忆的 Agent 就像一个每次对话都失忆的助手——你需要反复解释背景、重复要求、从头开始。记忆让 Agent 能: