Skip to content

16.3 评估指标

引言:为什么需要系统化评估指标

在生产级 AI 系统中,仅靠"看起来还可以"来评价模型是不够的。评估指标 = AI 系统的 KPI(可量化表现度量)。

16.3.1 四大核心维度

维度说明
输出质量模型能否正确"做事"
行为稳定性模型是否"稳"
风险与安全最关键的部分
成本与性能生产系统必须考虑

16.3.2 输出质量指标

指标说明
准确性是否能够正确完成目标任务
相关性输出内容是否与用户需求高度匹配
连贯性输出内容是否逻辑连贯、叙述流畅
覆盖度是否全面覆盖用户需求的关键信息

16.3.3 行为稳定性指标

指标说明
输出一致性同样 Prompt 多次运行,输出差异是否控制在阈值内
格式稳定性JSON 是否一直合法、Markdown 是否完整
工具调用稳定性工具调用是否准确、参数是否正确

16.3.4 风险与安全指标

指标说明
幻觉率衡量模型编造内容的概率
越狱风险评分检测模型是否容易被越狱
敏感内容风险模型是否错误输出违规信息
数据泄露风险是否暴露内部 system prompt

16.3.5 成本与性能指标

指标说明
Token 成本输入 token + 输出 token
延迟单次响应时间
吞吐量单位时间内可处理的请求数量

本节小结

关键要点

  1. 评估指标是生产级 AI 的基础设施
  2. 包含质量、稳定性、安全性、成本四大维度
  3. 幻觉率与越狱风险是安全的核心指标
  4. 模型健康度需要持续监控

评估指标是质量度量的核心,接下来我们将学习:幻觉减少