文档切分策略

文档切分是把长文档拆成适合检索的 Chunk。切分太小会丢上下文，切分太大会降低召回精度并增加模型成本。

# 1. 切分目标

好的 Chunk 应该：

重叠可以减少切分边界导致的信息丢失。

Chunk 1: A B C D
Chunk 2: C D E F
Chunk 3: E F G H

但重叠过多会带来重复索引、成本上升和检索结果冗余。

切分后，Chunk 可能离开原文档上下文。建议给每个 Chunk 补充标题路径。

文档：员工手册
章节：考勤制度 > 请假规则 > 年假
正文：员工连续工作满一年后...

这样模型在看到 Chunk 时能理解它属于哪个主题。

准备一组真实问题，检查：

Q：Chunk 大小有没有固定标准？

A：没有。要结合文档类型、模型窗口、Embedding 效果和问题类型测试。

Q：重叠越多越好吗？

A：不是。适度重叠能减少边界损失，过多会造成重复和成本上升。

Q：为什么要保留标题路径？

A：标题路径能给 Chunk 提供语义背景，让模型知道当前内容属于哪个主题和层级。

上次更新: 2026/06/25, 17:53:09