关键词向量与混合检索

混合检索是把关键词检索、向量检索和元数据过滤结合起来。企业 RAG 很少只靠一种检索方式，因为不同问题需要不同召回能力。

# 1. 为什么需要混合检索

向量检索擅长语义相似，关键词检索擅长精确匹配。

用户问题
  -> 查询改写
  -> 关键词检索
  -> 向量检索
  -> 元数据过滤
  -> 结果合并
  -> 去重
  -> 重排
  -> 返回候选 Chunk

元数据过滤通常应在召回前或召回中完成。

常见过滤条件：

权限过滤不能放到模型回答阶段才做，否则敏感内容已经进入上下文。

用户问题可能很口语化，需要改写成更适合检索的形式。

原问题：这个报错咋办
上下文：用户当前页面显示 ERR_10042
改写：ERR_10042 错误原因和处理方法

查询改写要谨慎，不能改变用户真实意图。

关键词和向量检索会返回不同候选，需要合并。

常见方式：

Q：什么时候必须用混合检索？

A：当知识库包含错误码、接口名、产品名、规章条款、代码和大量专有名词时，混合检索通常更稳。

Q：关键词检索是不是过时了？

A：没有。关键词检索在精确匹配、过滤和可解释性上仍然很重要。

Q：权限过滤应该在什么时候做？

A：越早越好。最好在检索阶段根据用户身份过滤，避免无权内容进入上下文。

上次更新: 2026/06/25, 17:53:09