Skip to content

15.4 安全过滤与内容约束

引言:越狱防御 ≠ 内容安全

即使 System Prompt 再强,也无法 100% 阻止模型生成危险内容。内容安全过滤是企业级 AI 的第二道安全防线。

15.4.1 安全过滤的三层防御架构

层级说明
Prompt-level Filtering阻止危险输入进入模型
Model-level Guardrails在模型生成前/中对输出进行约束
Output Filtering模型生成后再进行一次过滤

15.4.2 输入过滤

过滤内容说明
角色覆盖提示拦截越狱攻击
技术混淆提示阻止编码绕过
越权操作阻止不合法的输入

15.4.3 模型级过滤

策略说明
不可覆盖规则始终拒绝违法、危险请求
抽象而非执行可以解释原理,但不能提供可执行步骤
安全模式输出模板使用 [DECLINE] 格式防止误导
思维链裁剪内部推理但不暴露推理链

15.4.4 输出过滤器能力

能力说明
危险内容分类检测违法、危险、仇恨、隐私数据
结构校验检查模板是否被破坏、格式是否异常
趋动性检测判断用户是否企图利用 AI 进行欺诈、攻击
内容自动降级去除敏感细节、替换成高层描述

15.4.5 风险分级标准

风险等级示例场景行为
R0学习问题、普通任务正常输出
R1涉及敏感主题但非规避限制弱化输出
R2涉及详细技术步骤高层描述
R3有害信息请求直接拒绝

15.4.6 降级策略

策略说明
高层解释替代具体步骤提供相关原理+风险提示
教育性回答"我不能提供具体步骤,但可以解释相关安全原理"
提供替代方案"我不能告诉你如何攻击系统,但可以告诉你如何保护系统"

本节小结

关键要点

  1. 内容安全过滤是企业级 AI 的第二道安全防线
  2. 必须覆盖输入过滤、模型过滤、输出过滤
  3. 需要建立风险分级体系(R0-R3)
  4. 对危险内容采取降级而非直接输出

安全过滤是安全工程的核心,接下来我们将学习:Agent 安全策略