8.1 大模型的推理机制

引言：提示词工程的底层逻辑 = 理解模型如何"思考"

从本章开始，我们进入工程师必须掌握的原理层。想写出大厂级的提示词，你必须理解模型的推理机制。

大模型本质上只做一件事：给定前文，预测下一个 Token 的概率。 但这个简单机制，通过规模、训练、结构和推理技术，被升级成了一个"看起来像能理解"的智能系统。

所有大模型（GPT、Claude、Gemini、LLaMA）本质都是：概率语言模型（Predict Next Token）

例如输入"天空是"，模型会计算每个 Token 的概率分布：蓝色（0.52）、黑色（0.04）、晴朗（0.03）……并选出最可能的 token。

因为模型预测的不是单词，而是：

模型不是"理解医学"，它是在"复现医学语言模式"。

Transformer 的核心机制是自注意力（Self-Attention），它让模型决定：

多头注意力（Multi-Head Attention） 允许模型同时关注语义、句法、因果、时间顺序、风格等多个维度。模型规模越大，注意力头更多、层数更多、表达能力更强。

类型	说明	特点
隐式推理	模型内部自己"想"，不展示思维过程	快、优雅，但容易跳步、幻觉
显式推理（CoT）	让模型把推理过程写出来	精度更高、幻觉更低、更符合逻辑

显式推理示例：

请一步一步推理并展示你的思考过程。

或：

Let's think step by step.

这就是为什么 CoT 被称为"提示词工程最强武器之一"。

提示词不仅告诉模型"做什么"，还会影响模型的：

这些都会改变模型内部注意力流向，即改变推理路径。这是"提示词工程"的本质。

关键要点

大模型推理机制是技术原理的基础，接下来我们将学习：上下文窗口与注意力机制。