Skip to content

14.1 什么是 Agent

引言:为什么要学习 Agent

当提示词工程发展到一定阶段,单一 Prompt 已无法处理复杂任务。Agent 是能够执行任务链、调用工具、作出决策的智能体,是 AI 应用从"聊天"进化到"执行任务"的关键。

14.1.1 Agent 的正式定义

定义:在约束条件下,通过推理、规划、与工具交互来完成用户目标的自主型系统。

组成部分说明
目标(Goal)用户给出目标,Agent 决定如何达成
状态(State)维护上下文、历史、结果、行动状态
推理(Reasoning)进行计划、判断、分配子任务
行动(Action)执行动作(工具调用/API/代码运行等)
观察(Observation)读取工具结果、外部环境信息
循环(Loop)决策→行动→观察→更新状态,直到达到目标

14.1.2 Agent 与普通 Prompt 的区别

能力普通 PromptAgent
任务执行一次输出多步骤执行
推理规划强(规划链)
工具调用常规能力
状态管理几乎没有强大的状态循环
决策能力强(ReAct/Planner)

一句话总结:Prompt 是"指令",Agent 是"系统"。

14.1.3 现代 Agent 的核心能力

能力说明
推理分析目标、抽象任务、拆分子任务(CoT/ReAct/Planning)
规划制定计划并执行这些步骤
工具调用调用 API、执行函数、搜索网络、运行代码
状态管理记住任务历史、工具反馈、当前进度
行动循环推理→选择行动→调用工具→读取反馈→调整计划

14.1.4 Agent 的三大架构

架构工作原理特点
ReAct Agent推理一段→执行动作→再推理→再动作最灵活,适合未知任务
Planner-Executor先生成完整计划,然后逐步执行稳定,适合可控业务流程
Tool-Only Agent根据工具描述自动选择工具适合 API 丰富的环境

14.1.5 Agent 的三部分组成

组成说明
System Prompt定义身份、行为、限制、推理策略、安全边界
Tool Specification定义工具能做什么、输入输出格式、可调用场景
State Machine定义当前状态、执行规则、终止条件、重试机制

本节小结

关键要点

  1. Agent 是"可执行任务的智能系统"
  2. 本质是:目标+推理+工具+状态+行动循环
  3. Agent 是提示工程的最高级应用形式
  4. Agent 让大模型从"对话"进入"行动"时代

Agent 是高级提示工程的核心,接下来我们将学习:ReAct 框架