什么是 AI Agent？零基础入门指南

先用一句话说清楚

AI Agent 不是“更会聊天的 ChatGPT”，而是一个能围绕目标反复推理、调用工具、读取上下文、根据结果继续行动的系统。

如果普通 LLM 调用像“问一次、答一次”，Agent 更像“给它一个目标，它可以自己走几步，中途查资料、改文件、调用 API，必要时停下来问你确认”。

AI Agent 从一次回答到自主执行的能力层级示意

这张图可以先当成入门地图：从左到右，系统的自主性越来越高，成本、延迟和风险也会一起上升。真正做项目时，不要一上来追求“全自动 Agent”，而是先判断任务到底需要停在哪一层。

Anthropic 把 Workflow 和 Agent 统一放在 Agentic Systems 这个大类下。对新手来说，最重要的区别不是名字，而是：

一个最小可理解的 Agent，通常由四个部分组成：

典型循环是这样的：

Goal -> Model -> Tool call -> Observation -> Model -> Next step -> Result

这里的关键不是“模型有多聪明”，而是它能不能从真实环境拿到反馈。比如代码 Agent 会读文件、修改代码、运行测试；客服 Agent 会查订单、核对规则、必要时转人工。

和普通对话相比，Agent 的增量主要有四类：

如果一个任务不需要这些能力，直接用一次 LLM 调用通常更便宜、更快、更稳定。

一句入门法则：先把任务做成最简单的 LLM 调用；只有当简单方案明显不够时，再加工作流；当步骤无法预判时，再考虑 Agent。

客服场景适合 Agent，因为它既有对话，又有动作：查订单、查知识库、处理退款、转人工。它的边界也比较清楚：问题是否解决、用户是否满意、是否触发了高风险操作。

代码场景也适合 Agent，因为结果可以被测试验证。一个代码 Agent 可以读 issue、定位文件、修改代码、运行测试、根据失败信息继续修复。但它仍然需要人类审查，尤其是架构取舍、安全和业务语义。

看到任何“Agent 方案”时，先问四个问题：

把这四个问题想清楚，比背任何框架名字都更重要。