16.2 Prompt Testing（提示词测试）

引言：Prompt Testing 是生产级 AI 系统的"质量闸门"

任何一次微小的 Prompt 变更，都可能导致工具调用错误、输出结构破坏、幻觉激增、被越狱。Prompt Testing = 大模型系统的 QA（质量保证）与安全防线。

16.2.1 Prompt Testing 的核心目标

目标	说明
验证功能正确性	Prompt 的功能是否正确
确保输出稳定性	多次运行间保持稳定
减少幻觉	减少错误信息输出
保证安全边界	不被突破
验证工具调用	行为是否正确
确保输出格式	符合下游系统需要

16.2.2 六大测试类型

测试类型	说明
正确性测试	确保模型按照任务要求输出正确内容
一致性测试	同样输入多次运行，结果差异控制在阈值内
幻觉测试	验证 Prompt 能否避免模型编造事实
安全测试	检查 Prompt 是否容易被绕过或越狱
工具调用测试	验证工具调用行为是否正确
结构化输出测试	模型输出必须符合 JSON schema 等格式

16.2.3 三层自动化体系

层级	说明
示例测试	为每种典型请求建立固定测试用例
随机测试（Fuzz）	自动生成扰动输入以找到潜在风险
红队测试	模拟攻击者以破坏 Prompt

16.2.4 自动化流水线

Prompt 变化 → 固定用例测试 → Fuzz Test → 安全测试 → 工具调用测试 → 结构化输出验证 → Staging 灰度测试 → 生产全量发布

本节小结

关键要点

Prompt Testing 是生产级 AI 系统稳定性的保证
必须测试：正确性、一致性、安全性、工具调用、格式、幻觉
自动化必须覆盖示例测试、扰动测试、红队测试
Prompt Testing 必须作为 CI/CD 的一部分

Prompt Testing 是质量保证的核心，接下来我们将学习：评估指标。