15.4 安全过滤与内容约束

引言：越狱防御 ≠ 内容安全

即使 System Prompt 再强，也无法 100% 阻止模型生成危险内容。内容安全过滤是企业级 AI 的第二道安全防线。

15.4.1 安全过滤的三层防御架构

层级	说明
Prompt-level Filtering	阻止危险输入进入模型
Model-level Guardrails	在模型生成前/中对输出进行约束
Output Filtering	模型生成后再进行一次过滤

15.4.2 输入过滤

过滤内容	说明
角色覆盖提示	拦截越狱攻击
技术混淆提示	阻止编码绕过
越权操作	阻止不合法的输入

15.4.3 模型级过滤

策略	说明
不可覆盖规则	始终拒绝违法、危险请求
抽象而非执行	可以解释原理，但不能提供可执行步骤
安全模式输出模板	使用 [DECLINE] 格式防止误导
思维链裁剪	内部推理但不暴露推理链

15.4.4 输出过滤器能力

能力	说明
危险内容分类	检测违法、危险、仇恨、隐私数据
结构校验	检查模板是否被破坏、格式是否异常
趋动性检测	判断用户是否企图利用 AI 进行欺诈、攻击
内容自动降级	去除敏感细节、替换成高层描述

15.4.5 风险分级标准

风险等级	示例场景	行为
R0	学习问题、普通任务	正常输出
R1	涉及敏感主题但非规避限制	弱化输出
R2	涉及详细技术步骤	高层描述
R3	有害信息请求	直接拒绝

15.4.6 降级策略

策略	说明
高层解释替代具体步骤	提供相关原理+风险提示
教育性回答	"我不能提供具体步骤，但可以解释相关安全原理"
提供替代方案	"我不能告诉你如何攻击系统，但可以告诉你如何保护系统"

本节小结

关键要点

内容安全过滤是企业级 AI 的第二道安全防线
必须覆盖输入过滤、模型过滤、输出过滤
需要建立风险分级体系（R0-R3）
对危险内容采取降级而非直接输出

安全过滤是安全工程的核心，接下来我们将学习：Agent 安全策略。