Appearance
8.2 Token 与注意力机制直觉
引言:为什么理解 Token 与注意力机制能让你写出更强的提示词
如果你希望写出更稳定的 System Prompt、更强的推理控制、更精准的多轮任务提示词,你必须理解两件事:模型如何"看"文本(Token 化) 和 模型如何"关注重点"(注意力机制)。
这些不是数学推导,而是提示工程师的直觉基础。
8.2.1 Token:模型眼中的"最小阅读单位"
模型并不是按"字""词""句子"来理解文本,而是按 Token。
| 语言 | 示例 | Token 切分 |
|---|---|---|
| 英文 | I love artificial intelligence! | I / love / artificial / intelli / gence / ! |
| 中文 | 我喜欢人工智能 | 我 / 喜欢 / 人工 / 智能 |
关键结论:Token ≠ 字/词,而是一种统计分割方式。 Prompt 写法会影响 Token 分布 → 影响注意力 → 影响模型推理。
8.2.2 为什么 Token 会影响推理质量
因为模型推理时,是通过注意力头在 Token 上"建立连接"的。如果你的 Prompt 结构混乱、段落太长、关键指令埋在中间,注意力权重就会分散,模型就会"跑偏"。
对比示例:
# 效果较差
你是一个专业的 AI 助手,请写一篇文章。要求:1. 逻辑清晰 2. 风格统一 3. 不要出现幻觉
# 效果更好
你是专业 AI 助手。
核心要求:
- 逻辑清晰
- 风格统一
- 严禁幻觉
任务:写一篇文章。第二种因为关键规则提前、Token 结构更清晰,注意力更集中。
8.2.3 注意力机制的直觉理解
注意力机制做的是:决定当前 Token 在生成下一个 Token 时,应该关注哪些 Token。
| 注意力能力 | 说明 |
|---|---|
| 找到相关信息 | 在文本中寻找相关的内容 |
| 构建因果链 | 推断 A 与 B 之间的因果关系 |
| 识别长期依赖 | 让远处的 Token 互相影响 |
8.2.4 Token + 注意力对提示词的 8 个实际影响
| 影响 | 说明 |
|---|---|
| 重要内容放前面效果更好 | 注意力层对前置信号更敏感 |
| 分点列出的内容更好理解 | 每个点是独立 Token 组,注意力更容易聚焦 |
| 段落越短,注意力分布越稳定 | 大段文字容易导致注意力稀释 |
| 换行是强分割信号 | 模型会把换行当成结构提示 |
| 标题、标签、括号强烈影响注意力 | 【规则】【任务】比散文形式效果强 |
| 模型更容易遵循"先任务后要求"模式 | 注意力会先扫描前几行 |
| 模型对"列表 Token"特别敏感 | 结构更稳定 |
| 提示词越结构化,结果越稳定 | Prompt Blocks 成功的根本原因 |
8.2.5 工程师必学的 6 条黄金法则
| 法则 | 说明 |
|---|---|
| 使用标题块 | 【任务目标】【规则】【格式】让注意力自动分区 |
| 重要内容写在前 5 行 | 注意力权重最高 |
| 每个模块独立成段 | 分散注意力,使逻辑更清晰 |
| 减少歧义 Token | 避免模型注意力分散 |
| 使用结构模板 | 1. 2. 3. Token 化后更干净 |
| 避免过长句子 | 长句 = Token 多 → 注意力稀释 |
本节小结
关键要点
- Token 是模型"阅读世界"的方式
- 注意力机制决定了模型"如何推理"
- 更清晰的 Token 布局 → 更高的推理质量
- 模块化提示词本质上是在控制注意力流向
- 提示词工程不是"写作文",而是"设计 Token 结构"
Token 与注意力机制是技术原理的核心,接下来我们将学习:上下文窗口与长文本处理。


