Skip to content

8.2 Token 与注意力机制直觉

引言:为什么理解 Token 与注意力机制能让你写出更强的提示词

如果你希望写出更稳定的 System Prompt、更强的推理控制、更精准的多轮任务提示词,你必须理解两件事:模型如何"看"文本(Token 化)模型如何"关注重点"(注意力机制)

这些不是数学推导,而是提示工程师的直觉基础

8.2.1 Token:模型眼中的"最小阅读单位"

模型并不是按"字""词""句子"来理解文本,而是按 Token

语言示例Token 切分
英文I love artificial intelligence!I / love / artificial / intelli / gence / !
中文我喜欢人工智能我 / 喜欢 / 人工 / 智能

关键结论:Token ≠ 字/词,而是一种统计分割方式。 Prompt 写法会影响 Token 分布 → 影响注意力 → 影响模型推理。

8.2.2 为什么 Token 会影响推理质量

因为模型推理时,是通过注意力头在 Token 上"建立连接"的。如果你的 Prompt 结构混乱、段落太长、关键指令埋在中间,注意力权重就会分散,模型就会"跑偏"。

对比示例:

# 效果较差
你是一个专业的 AI 助手,请写一篇文章。要求:1. 逻辑清晰 2. 风格统一 3. 不要出现幻觉

# 效果更好
你是专业 AI 助手。
核心要求:
- 逻辑清晰
- 风格统一
- 严禁幻觉
任务:写一篇文章。

第二种因为关键规则提前、Token 结构更清晰,注意力更集中。

8.2.3 注意力机制的直觉理解

注意力机制做的是:决定当前 Token 在生成下一个 Token 时,应该关注哪些 Token。

注意力能力说明
找到相关信息在文本中寻找相关的内容
构建因果链推断 A 与 B 之间的因果关系
识别长期依赖让远处的 Token 互相影响

8.2.4 Token + 注意力对提示词的 8 个实际影响

影响说明
重要内容放前面效果更好注意力层对前置信号更敏感
分点列出的内容更好理解每个点是独立 Token 组,注意力更容易聚焦
段落越短,注意力分布越稳定大段文字容易导致注意力稀释
换行是强分割信号模型会把换行当成结构提示
标题、标签、括号强烈影响注意力【规则】【任务】比散文形式效果强
模型更容易遵循"先任务后要求"模式注意力会先扫描前几行
模型对"列表 Token"特别敏感结构更稳定
提示词越结构化,结果越稳定Prompt Blocks 成功的根本原因

8.2.5 工程师必学的 6 条黄金法则

法则说明
使用标题块【任务目标】【规则】【格式】让注意力自动分区
重要内容写在前 5 行注意力权重最高
每个模块独立成段分散注意力,使逻辑更清晰
减少歧义 Token避免模型注意力分散
使用结构模板1. 2. 3. Token 化后更干净
避免过长句子长句 = Token 多 → 注意力稀释

本节小结

关键要点

  1. Token 是模型"阅读世界"的方式
  2. 注意力机制决定了模型"如何推理"
  3. 更清晰的 Token 布局 → 更高的推理质量
  4. 模块化提示词本质上是在控制注意力流向
  5. 提示词工程不是"写作文",而是"设计 Token 结构"

Token 与注意力机制是技术原理的核心,接下来我们将学习:上下文窗口与长文本处理