Appearance
8.1 大模型的推理机制
引言:提示词工程的底层逻辑 = 理解模型如何"思考"
从本章开始,我们进入工程师必须掌握的原理层。想写出大厂级的提示词,你必须理解模型的推理机制。
大模型本质上只做一件事:给定前文,预测下一个 Token 的概率。 但这个简单机制,通过规模、训练、结构和推理技术,被升级成了一个"看起来像能理解"的智能系统。
8.1.1 大模型的核心原理:预测下一个 Token
所有大模型(GPT、Claude、Gemini、LLaMA)本质都是:概率语言模型(Predict Next Token)
例如输入"天空是",模型会计算每个 Token 的概率分布:蓝色(0.52)、黑色(0.04)、晴朗(0.03)……并选出最可能的 token。
8.1.2 为什么仅靠"预测下一个 Token"就能产生智能
因为模型预测的不是单词,而是:
| 预测内容 | 说明 |
|---|---|
| 概念关系 | 词与词之间的语义关联 |
| 因果链条 | 事件之间的因果逻辑 |
| 数学模式 | 数学推理的规律 |
| 世界知识 | 训练数据中的事实 |
| 专家写作风格 | 专业领域的表达方式 |
| 逻辑结构 | 论证和推理的组织方式 |
模型不是"理解医学",它是在"复现医学语言模式"。
8.1.3 大模型如何"思考"——注意力机制
Transformer 的核心机制是自注意力(Self-Attention),它让模型决定:
- 哪些信息重要
- 哪些信息应被忽略
- 哪些信息之间应该建立关系
- 哪些 token 会互相"影响"
多头注意力(Multi-Head Attention) 允许模型同时关注语义、句法、因果、时间顺序、风格等多个维度。模型规模越大,注意力头更多、层数更多、表达能力更强。
8.1.4 隐式推理 vs 显式推理
| 类型 | 说明 | 特点 |
|---|---|---|
| 隐式推理 | 模型内部自己"想",不展示思维过程 | 快、优雅,但容易跳步、幻觉 |
| 显式推理(CoT) | 让模型把推理过程写出来 | 精度更高、幻觉更低、更符合逻辑 |
显式推理示例:
请一步一步推理并展示你的思考过程。或:
Let's think step by step.这就是为什么 CoT 被称为"提示词工程最强武器之一"。
8.1.5 提示词如何影响模型推理路径
提示词不仅告诉模型"做什么",还会影响模型的:
| 影响维度 | 示例 |
|---|---|
| 改变推理顺序 | "先分析,再总结" |
| 限制思维方式 | "使用因果链,而不是并列观点" |
| 改变抽象层级 | "请站在系统设计师角度思考" |
| 修改注意力焦点 | "只关注输入中与 X 相关的内容" |
这些都会改变模型内部注意力流向,即改变推理路径。这是"提示词工程"的本质。
本节小结
关键要点
- 大模型的底层是预测下一个 Token
- 因为注意力机制,它能做"类人推理"
- 推理分为:隐式推理(默认)和显式推理(CoT)
- 提示词通过影响注意力分配来改变模型"思考方式"
- 理解这些原理,才能写出专业级 System Prompt 和复杂多阶段提示词
大模型推理机制是技术原理的基础,接下来我们将学习:上下文窗口与注意力机制。


