文档解析与清洗

RAG 的效果首先取决于文档质量。脏文档进入索引后，模型会基于脏上下文回答，后面再强的 Prompt 和模型也很难补救。

# 1. 文档处理链路

原始文档
  -> 格式解析
  -> 文本抽取
  -> 结构识别
  -> 噪声清洗
  -> 元数据补充
  -> 质量检查
  -> 后续切分

RAG 不只是存文本，还要存元数据。

Chunk
├─ content: 正文
├─ source: 文档来源
├─ title: 文档标题
├─ page: 页码
├─ version: 版本
├─ updated_at: 更新时间
├─ owner: 归属团队
└─ acl: 权限信息

元数据可用于权限过滤、版本控制、引用展示和排查问题。

表格和代码是 RAG 中容易丢信息的部分。

建议：

可以抽样检查：

Q：文档解析可以完全自动化吗？

A：可以自动化大部分流程，但高价值文档、复杂 PDF 和表格最好抽样人工验收。

Q：为什么 PDF 做 RAG 效果常常不好？

A：PDF 更关注版面展示，不一定保留逻辑结构。解析后可能出现顺序错乱、表格断裂和页眉页脚噪声。

Q：清洗会不会误删重要内容？

A：会。所以清洗规则要可回放，重要文档要保留原文和清洗后文本用于对比。

上次更新: 2026/06/25, 17:53:09