Wrayの知识库 Wrayの知识库
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
首页
  • Java 基础
  • Java 集合
  • Java 并发
  • Java IO
  • JVM
  • Spring Framework
  • Spring Boot
  • Spring Cloud
  • Spring Security
  • MySQL
  • Redis
  • 计算机基础
  • 操作系统原理
  • Linux
  • MacOS
  • Windows
  • 系统工程与研究专题
  • AI 基础
  • 大模型基础
  • Prompt 工程
  • RAG 检索增强生成
  • Agent 智能体
  • AI 应用开发
  • AI 工程化
  • AI 安全与治理
  • AI 面试与设计题
  • 纸质书
  • 电子书
  • 学习课程
疑难杂症
GitHub (opens new window)
  • AI概述
  • AI基础

  • 大模型基础

  • Prompt工程

  • RAG检索增强生成

  • Agent智能体

  • AI应用开发

  • AI工程化

  • AI安全与治理

    • AI安全与治理概述
    • Prompt注入与防护
    • 数据脱敏与权限过滤
    • 工具调用安全
    • 内容审核与安全策略
      • 1. 审核对象
      • 2. 常见风险类型
      • 3. 安全处理方式
      • 4. 策略分层
      • 5. 输出安全
      • 6. 用户体验
      • 7. Tips 快问快答
    • 企业AI使用规范
    • 日志审计与合规
  • AI面试与设计题

目录

内容审核与安全策略

内容审核用于识别和处理不安全、不合规或不适合输出的内容。AI 应用既要检查用户输入,也要检查模型输出。

# 1. 审核对象

用户输入
上传文件
检索文档
工具返回
模型输出
日志记录

输入和输出都需要治理,不能只管模型回答。

# 2. 常见风险类型

类型 示例
违法违规 非法交易、攻击指导
暴力伤害 自伤、伤害他人
仇恨歧视 针对群体的攻击
隐私泄露 身份证、手机号、密钥
金融医疗法律 高风险专业建议
企业敏感 合同、报价、客户信息

具体策略要结合业务、地区法规和产品定位。

# 3. 安全处理方式

处理 场景
直接放行 低风险内容
脱敏后处理 包含敏感字段但任务合理
拒答 明确违规或危险请求
转人工 边界复杂或高风险场景
降级回答 给安全替代建议
记录审计 可疑或高风险请求

# 4. 策略分层

规则过滤
  -> 分类模型
  -> 业务策略
  -> 人工审核
  -> 审计复盘

单一规则很难覆盖所有情况,多层策略更稳。

# 5. 输出安全

模型输出前要检查:

  • 是否包含敏感数据。
  • 是否提供危险步骤。
  • 是否违反业务规则。
  • 是否含有未经授权的信息。
  • 是否给出高风险专业结论。

必要时替换为安全回答。

# 6. 用户体验

拒答不要粗暴。

建议:

  • 简要说明无法提供的原因。
  • 提供安全替代信息。
  • 对误判提供反馈入口。
  • 不暴露具体审核规则。

# 7. Tips 快问快答

Q:内容审核会影响用户体验吗?

A:会,但合理策略能降低误伤。关键是分级处理,而不是全部一刀切。

Q:模型自己说安全就安全吗?

A:不一定。安全策略应由独立规则、审核模型和业务系统共同执行。

Q:企业内部工具还需要内容审核吗?

A:需要。内部工具也可能处理敏感数据、高风险操作和合规问题。

上次更新: 2026/06/25, 17:53:09
工具调用安全
企业AI使用规范

← 工具调用安全 企业AI使用规范→

Copyright © 2023-2026 Wray | 鄂ICP备2024050235号-1
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式