上下文压缩与摘要

上下文窗口有限，AI 应用需要控制历史对话、检索资料和工具结果的长度。上下文压缩与摘要用于保留关键信息，同时降低 Token 成本和噪声。

# 1. 上下文来源

系统 Prompt
用户问题
历史对话
RAG 文档
工具结果
业务状态

这些内容都会占用 Token。

对话摘要应保留：

不要把所有寒暄和无关内容写入摘要。

工具返回可能很长，例如 SQL 查询结果、日志、搜索结果。

建议：

RAG 不应简单把所有检索结果塞入模型。

候选 Chunk
  -> 去重
  -> 重排
  -> 只保留相关段落
  -> 带来源拼接

必要时可以先让模型对候选资料做证据提取，再生成最终答案。

Q：历史对话可以全部摘要吗？

A：可以摘要，但关键事实和用户明确约束最好保留原文或结构化记录。

Q：摘要会不会产生幻觉？

A：会。因此摘要也需要约束和校验，高风险内容要可追溯到原文。

Q：上下文压缩和 RAG 有什么关系？

A：RAG 负责找资料，压缩负责把资料以更短、更聚焦的方式放进模型窗口。

上次更新: 2026/06/25, 17:53:09