14.1 什么是 Agent

引言：为什么要学习 Agent

当提示词工程发展到一定阶段，单一 Prompt 已无法处理复杂任务。Agent 是能够执行任务链、调用工具、作出决策的智能体，是 AI 应用从"聊天"进化到"执行任务"的关键。

14.1.1 Agent 的正式定义

定义：在约束条件下，通过推理、规划、与工具交互来完成用户目标的自主型系统。

组成部分	说明
目标（Goal）	用户给出目标，Agent 决定如何达成
状态（State）	维护上下文、历史、结果、行动状态
推理（Reasoning）	进行计划、判断、分配子任务
行动（Action）	执行动作（工具调用/API/代码运行等）
观察（Observation）	读取工具结果、外部环境信息
循环（Loop）	决策→行动→观察→更新状态，直到达到目标

14.1.2 Agent 与普通 Prompt 的区别

能力	普通 Prompt	Agent
任务执行	一次输出	多步骤执行
推理规划	弱	强（规划链）
工具调用	限	常规能力
状态管理	几乎没有	强大的状态循环
决策能力	弱	强（ReAct/Planner）

一句话总结：Prompt 是"指令"，Agent 是"系统"。

14.1.3 现代 Agent 的核心能力

能力	说明
推理	分析目标、抽象任务、拆分子任务（CoT/ReAct/Planning）
规划	制定计划并执行这些步骤
工具调用	调用 API、执行函数、搜索网络、运行代码
状态管理	记住任务历史、工具反馈、当前进度
行动循环	推理→选择行动→调用工具→读取反馈→调整计划

14.1.4 Agent 的三大架构

架构	工作原理	特点
ReAct Agent	推理一段→执行动作→再推理→再动作	最灵活，适合未知任务
Planner-Executor	先生成完整计划，然后逐步执行	稳定，适合可控业务流程
Tool-Only Agent	根据工具描述自动选择工具	适合 API 丰富的环境

14.1.5 Agent 的三部分组成

组成	说明
System Prompt	定义身份、行为、限制、推理策略、安全边界
Tool Specification	定义工具能做什么、输入输出格式、可调用场景
State Machine	定义当前状态、执行规则、终止条件、重试机制

本节小结

关键要点

Agent 是"可执行任务的智能系统"
本质是：目标+推理+工具+状态+行动循环
Agent 是提示工程的最高级应用形式
Agent 让大模型从"对话"进入"行动"时代

Agent 是高级提示工程的核心，接下来我们将学习：ReAct 框架。