Skip to content

8.1 大模型的推理机制

引言:提示词工程的底层逻辑 = 理解模型如何"思考"

从本章开始,我们进入工程师必须掌握的原理层。想写出大厂级的提示词,你必须理解模型的推理机制。

大模型本质上只做一件事:给定前文,预测下一个 Token 的概率。 但这个简单机制,通过规模、训练、结构和推理技术,被升级成了一个"看起来像能理解"的智能系统。

8.1.1 大模型的核心原理:预测下一个 Token

所有大模型(GPT、Claude、Gemini、LLaMA)本质都是:概率语言模型(Predict Next Token)

例如输入"天空是",模型会计算每个 Token 的概率分布:蓝色(0.52)、黑色(0.04)、晴朗(0.03)……并选出最可能的 token。

8.1.2 为什么仅靠"预测下一个 Token"就能产生智能

因为模型预测的不是单词,而是:

预测内容说明
概念关系词与词之间的语义关联
因果链条事件之间的因果逻辑
数学模式数学推理的规律
世界知识训练数据中的事实
专家写作风格专业领域的表达方式
逻辑结构论证和推理的组织方式

模型不是"理解医学",它是在"复现医学语言模式"。

8.1.3 大模型如何"思考"——注意力机制

Transformer 的核心机制是自注意力(Self-Attention),它让模型决定:

  • 哪些信息重要
  • 哪些信息应被忽略
  • 哪些信息之间应该建立关系
  • 哪些 token 会互相"影响"

多头注意力(Multi-Head Attention) 允许模型同时关注语义、句法、因果、时间顺序、风格等多个维度。模型规模越大,注意力头更多、层数更多、表达能力更强。

8.1.4 隐式推理 vs 显式推理

类型说明特点
隐式推理模型内部自己"想",不展示思维过程快、优雅,但容易跳步、幻觉
显式推理(CoT)让模型把推理过程写出来精度更高、幻觉更低、更符合逻辑

显式推理示例:

请一步一步推理并展示你的思考过程。

或:

Let's think step by step.

这就是为什么 CoT 被称为"提示词工程最强武器之一"。

8.1.5 提示词如何影响模型推理路径

提示词不仅告诉模型"做什么",还会影响模型的:

影响维度示例
改变推理顺序"先分析,再总结"
限制思维方式"使用因果链,而不是并列观点"
改变抽象层级"请站在系统设计师角度思考"
修改注意力焦点"只关注输入中与 X 相关的内容"

这些都会改变模型内部注意力流向,即改变推理路径。这是"提示词工程"的本质。

本节小结

关键要点

  1. 大模型的底层是预测下一个 Token
  2. 因为注意力机制,它能做"类人推理"
  3. 推理分为:隐式推理(默认)和显式推理(CoT)
  4. 提示词通过影响注意力分配来改变模型"思考方式"
  5. 理解这些原理,才能写出专业级 System Prompt 和复杂多阶段提示词

大模型推理机制是技术原理的基础,接下来我们将学习:上下文窗口与注意力机制