Appearance
14.1 什么是 Agent
引言:为什么要学习 Agent
当提示词工程发展到一定阶段,单一 Prompt 已无法处理复杂任务。Agent 是能够执行任务链、调用工具、作出决策的智能体,是 AI 应用从"聊天"进化到"执行任务"的关键。
14.1.1 Agent 的正式定义
定义:在约束条件下,通过推理、规划、与工具交互来完成用户目标的自主型系统。
| 组成部分 | 说明 |
|---|---|
| 目标(Goal) | 用户给出目标,Agent 决定如何达成 |
| 状态(State) | 维护上下文、历史、结果、行动状态 |
| 推理(Reasoning) | 进行计划、判断、分配子任务 |
| 行动(Action) | 执行动作(工具调用/API/代码运行等) |
| 观察(Observation) | 读取工具结果、外部环境信息 |
| 循环(Loop) | 决策→行动→观察→更新状态,直到达到目标 |
14.1.2 Agent 与普通 Prompt 的区别
| 能力 | 普通 Prompt | Agent |
|---|---|---|
| 任务执行 | 一次输出 | 多步骤执行 |
| 推理规划 | 弱 | 强(规划链) |
| 工具调用 | 限 | 常规能力 |
| 状态管理 | 几乎没有 | 强大的状态循环 |
| 决策能力 | 弱 | 强(ReAct/Planner) |
一句话总结:Prompt 是"指令",Agent 是"系统"。
14.1.3 现代 Agent 的核心能力
| 能力 | 说明 |
|---|---|
| 推理 | 分析目标、抽象任务、拆分子任务(CoT/ReAct/Planning) |
| 规划 | 制定计划并执行这些步骤 |
| 工具调用 | 调用 API、执行函数、搜索网络、运行代码 |
| 状态管理 | 记住任务历史、工具反馈、当前进度 |
| 行动循环 | 推理→选择行动→调用工具→读取反馈→调整计划 |
14.1.4 Agent 的三大架构
| 架构 | 工作原理 | 特点 |
|---|---|---|
| ReAct Agent | 推理一段→执行动作→再推理→再动作 | 最灵活,适合未知任务 |
| Planner-Executor | 先生成完整计划,然后逐步执行 | 稳定,适合可控业务流程 |
| Tool-Only Agent | 根据工具描述自动选择工具 | 适合 API 丰富的环境 |
14.1.5 Agent 的三部分组成
| 组成 | 说明 |
|---|---|
| System Prompt | 定义身份、行为、限制、推理策略、安全边界 |
| Tool Specification | 定义工具能做什么、输入输出格式、可调用场景 |
| State Machine | 定义当前状态、执行规则、终止条件、重试机制 |
本节小结
关键要点
- Agent 是"可执行任务的智能系统"
- 本质是:目标+推理+工具+状态+行动循环
- Agent 是提示工程的最高级应用形式
- Agent 让大模型从"对话"进入"行动"时代
Agent 是高级提示工程的核心,接下来我们将学习:ReAct 框架。


