内容审核与安全策略
内容审核用于识别和处理不安全、不合规或不适合输出的内容。AI 应用既要检查用户输入,也要检查模型输出。
# 1. 审核对象
用户输入
上传文件
检索文档
工具返回
模型输出
日志记录
输入和输出都需要治理,不能只管模型回答。
# 2. 常见风险类型
| 类型 | 示例 |
|---|---|
| 违法违规 | 非法交易、攻击指导 |
| 暴力伤害 | 自伤、伤害他人 |
| 仇恨歧视 | 针对群体的攻击 |
| 隐私泄露 | 身份证、手机号、密钥 |
| 金融医疗法律 | 高风险专业建议 |
| 企业敏感 | 合同、报价、客户信息 |
具体策略要结合业务、地区法规和产品定位。
# 3. 安全处理方式
| 处理 | 场景 |
|---|---|
| 直接放行 | 低风险内容 |
| 脱敏后处理 | 包含敏感字段但任务合理 |
| 拒答 | 明确违规或危险请求 |
| 转人工 | 边界复杂或高风险场景 |
| 降级回答 | 给安全替代建议 |
| 记录审计 | 可疑或高风险请求 |
# 4. 策略分层
规则过滤
-> 分类模型
-> 业务策略
-> 人工审核
-> 审计复盘
单一规则很难覆盖所有情况,多层策略更稳。
# 5. 输出安全
模型输出前要检查:
- 是否包含敏感数据。
- 是否提供危险步骤。
- 是否违反业务规则。
- 是否含有未经授权的信息。
- 是否给出高风险专业结论。
必要时替换为安全回答。
# 6. 用户体验
拒答不要粗暴。
建议:
- 简要说明无法提供的原因。
- 提供安全替代信息。
- 对误判提供反馈入口。
- 不暴露具体审核规则。
# 7. Tips 快问快答
Q:内容审核会影响用户体验吗?
A:会,但合理策略能降低误伤。关键是分级处理,而不是全部一刀切。
Q:模型自己说安全就安全吗?
A:不一定。安全策略应由独立规则、审核模型和业务系统共同执行。
Q:企业内部工具还需要内容审核吗?
A:需要。内部工具也可能处理敏感数据、高风险操作和合规问题。
上次更新: 2026/06/25, 17:53:09