Appearance
16.2 Prompt Testing(提示词测试)
引言:Prompt Testing 是生产级 AI 系统的"质量闸门"
任何一次微小的 Prompt 变更,都可能导致工具调用错误、输出结构破坏、幻觉激增、被越狱。Prompt Testing = 大模型系统的 QA(质量保证)与安全防线。
16.2.1 Prompt Testing 的核心目标
| 目标 | 说明 |
|---|---|
| 验证功能正确性 | Prompt 的功能是否正确 |
| 确保输出稳定性 | 多次运行间保持稳定 |
| 减少幻觉 | 减少错误信息输出 |
| 保证安全边界 | 不被突破 |
| 验证工具调用 | 行为是否正确 |
| 确保输出格式 | 符合下游系统需要 |
16.2.2 六大测试类型
| 测试类型 | 说明 |
|---|---|
| 正确性测试 | 确保模型按照任务要求输出正确内容 |
| 一致性测试 | 同样输入多次运行,结果差异控制在阈值内 |
| 幻觉测试 | 验证 Prompt 能否避免模型编造事实 |
| 安全测试 | 检查 Prompt 是否容易被绕过或越狱 |
| 工具调用测试 | 验证工具调用行为是否正确 |
| 结构化输出测试 | 模型输出必须符合 JSON schema 等格式 |
16.2.3 三层自动化体系
| 层级 | 说明 |
|---|---|
| 示例测试 | 为每种典型请求建立固定测试用例 |
| 随机测试(Fuzz) | 自动生成扰动输入以找到潜在风险 |
| 红队测试 | 模拟攻击者以破坏 Prompt |
16.2.4 自动化流水线
Prompt 变化 → 固定用例测试 → Fuzz Test → 安全测试 → 工具调用测试 → 结构化输出验证 → Staging 灰度测试 → 生产全量发布本节小结
关键要点
- Prompt Testing 是生产级 AI 系统稳定性的保证
- 必须测试:正确性、一致性、安全性、工具调用、格式、幻觉
- 自动化必须覆盖示例测试、扰动测试、红队测试
- Prompt Testing 必须作为 CI/CD 的一部分
Prompt Testing 是质量保证的核心,接下来我们将学习:评估指标。


