企业知识库问答
企业知识库问答是 RAG 最典型的应用。它的目标不是让模型自由发挥,而是让用户基于企业内部文档快速获得可追溯、可权限控制的答案。
# 1. 系统架构
文档系统
-> 文档解析与清洗
-> 切分与索引
-> 向量库 / 搜索引擎
用户问题
-> 权限过滤
-> 检索召回
-> 重排
-> 生成答案
-> 引用来源
-> 用户反馈
# 2. 核心能力
| 能力 | 说明 |
|---|---|
| 文档接入 | 支持 Markdown、PDF、Word、网页等 |
| 权限过滤 | 用户只能查自己有权看的内容 |
| 语义检索 | 支持自然语言提问 |
| 引用来源 | 答案附带文档、章节、页码 |
| 低置信度拒答 | 资料不足时不编造 |
| 反馈闭环 | 收集失败问题持续优化 |
# 3. 权限设计
企业知识库最容易忽略权限。
用户身份
-> 部门 / 角色 / 项目
-> 文档 ACL
-> 检索前过滤
-> 只把有权 Chunk 放入上下文
不能先把所有文档放进模型,再要求模型不要泄露。
# 4. 答案格式
建议输出:
结论:
...
依据:
1. [文档 A,第 3 节] ...
2. [文档 B,第 12 页] ...
不确定事项:
- ...
这样用户能快速看结论,也能核对依据。
# 5. 常见问题
| 问题 | 解决方向 |
|---|---|
| 找不到资料 | 检查文档是否入库、切分和检索 |
| 答案过期 | 加版本和更新时间过滤 |
| 引用不准确 | 拼接上下文时保留来源 |
| 答案太泛 | 优化 Prompt 和重排 |
| 泄露内容 | 检索前做权限过滤 |
# 6. 上线指标
| 指标 | 说明 |
|---|---|
| 命中率 | 有多少问题能找到相关资料 |
| 正确率 | 答案是否符合资料 |
| 引用准确率 | 引用是否支撑答案 |
| 拒答率 | 资料不足时是否合理拒答 |
| 转人工率 | 无法解决问题的比例 |
| 用户满意度 | 用户反馈结果 |
# 7. Tips 快问快答
Q:企业知识库要不要支持上传任意文件?
A:可以,但要做格式限制、病毒扫描、权限隔离、解析质量检查和数据脱敏。
Q:知识库问答为什么要返回引用?
A:引用可以降低幻觉风险,让用户核对来源,也方便系统排查问题。
Q:文档更新后如何让答案更新?
A:需要增量索引机制,文档新增、修改、删除和权限变化都要同步到检索系统。
上次更新: 2026/06/25, 17:53:09