Appearance
16.3 评估指标
引言:为什么需要系统化评估指标
在生产级 AI 系统中,仅靠"看起来还可以"来评价模型是不够的。评估指标 = AI 系统的 KPI(可量化表现度量)。
16.3.1 四大核心维度
| 维度 | 说明 |
|---|---|
| 输出质量 | 模型能否正确"做事" |
| 行为稳定性 | 模型是否"稳" |
| 风险与安全 | 最关键的部分 |
| 成本与性能 | 生产系统必须考虑 |
16.3.2 输出质量指标
| 指标 | 说明 |
|---|---|
| 准确性 | 是否能够正确完成目标任务 |
| 相关性 | 输出内容是否与用户需求高度匹配 |
| 连贯性 | 输出内容是否逻辑连贯、叙述流畅 |
| 覆盖度 | 是否全面覆盖用户需求的关键信息 |
16.3.3 行为稳定性指标
| 指标 | 说明 |
|---|---|
| 输出一致性 | 同样 Prompt 多次运行,输出差异是否控制在阈值内 |
| 格式稳定性 | JSON 是否一直合法、Markdown 是否完整 |
| 工具调用稳定性 | 工具调用是否准确、参数是否正确 |
16.3.4 风险与安全指标
| 指标 | 说明 |
|---|---|
| 幻觉率 | 衡量模型编造内容的概率 |
| 越狱风险评分 | 检测模型是否容易被越狱 |
| 敏感内容风险 | 模型是否错误输出违规信息 |
| 数据泄露风险 | 是否暴露内部 system prompt |
16.3.5 成本与性能指标
| 指标 | 说明 |
|---|---|
| Token 成本 | 输入 token + 输出 token |
| 延迟 | 单次响应时间 |
| 吞吐量 | 单位时间内可处理的请求数量 |
本节小结
关键要点
- 评估指标是生产级 AI 的基础设施
- 包含质量、稳定性、安全性、成本四大维度
- 幻觉率与越狱风险是安全的核心指标
- 模型健康度需要持续监控
评估指标是质量度量的核心,接下来我们将学习:幻觉减少。


