Appearance
15.4 安全过滤与内容约束
引言:越狱防御 ≠ 内容安全
即使 System Prompt 再强,也无法 100% 阻止模型生成危险内容。内容安全过滤是企业级 AI 的第二道安全防线。
15.4.1 安全过滤的三层防御架构
| 层级 | 说明 |
|---|---|
| Prompt-level Filtering | 阻止危险输入进入模型 |
| Model-level Guardrails | 在模型生成前/中对输出进行约束 |
| Output Filtering | 模型生成后再进行一次过滤 |
15.4.2 输入过滤
| 过滤内容 | 说明 |
|---|---|
| 角色覆盖提示 | 拦截越狱攻击 |
| 技术混淆提示 | 阻止编码绕过 |
| 越权操作 | 阻止不合法的输入 |
15.4.3 模型级过滤
| 策略 | 说明 |
|---|---|
| 不可覆盖规则 | 始终拒绝违法、危险请求 |
| 抽象而非执行 | 可以解释原理,但不能提供可执行步骤 |
| 安全模式输出模板 | 使用 [DECLINE] 格式防止误导 |
| 思维链裁剪 | 内部推理但不暴露推理链 |
15.4.4 输出过滤器能力
| 能力 | 说明 |
|---|---|
| 危险内容分类 | 检测违法、危险、仇恨、隐私数据 |
| 结构校验 | 检查模板是否被破坏、格式是否异常 |
| 趋动性检测 | 判断用户是否企图利用 AI 进行欺诈、攻击 |
| 内容自动降级 | 去除敏感细节、替换成高层描述 |
15.4.5 风险分级标准
| 风险等级 | 示例场景 | 行为 |
|---|---|---|
| R0 | 学习问题、普通任务 | 正常输出 |
| R1 | 涉及敏感主题但非规避限制 | 弱化输出 |
| R2 | 涉及详细技术步骤 | 高层描述 |
| R3 | 有害信息请求 | 直接拒绝 |
15.4.6 降级策略
| 策略 | 说明 |
|---|---|
| 高层解释替代具体步骤 | 提供相关原理+风险提示 |
| 教育性回答 | "我不能提供具体步骤,但可以解释相关安全原理" |
| 提供替代方案 | "我不能告诉你如何攻击系统,但可以告诉你如何保护系统" |
本节小结
关键要点
- 内容安全过滤是企业级 AI 的第二道安全防线
- 必须覆盖输入过滤、模型过滤、输出过滤
- 需要建立风险分级体系(R0-R3)
- 对危险内容采取降级而非直接输出
安全过滤是安全工程的核心,接下来我们将学习:Agent 安全策略。


