Embedding与语义检索

语义检索使用 Embedding 向量表示问题和文档，通过向量相似度找到语义相关内容。它是 RAG 的核心召回方式之一。

# 1. 语义检索流程

文档 Chunk
  -> Embedding 模型
  -> 文档向量
  -> 向量库

用户问题
  -> Embedding 模型
  -> 问题向量
  -> 相似度搜索
  -> 返回相关 Chunk

关键词检索依赖字面匹配，遇到同义表达时可能失败。

语义检索可以捕捉“表达不同但含义相近”的内容。

常见做法是取 Top K 个最相似 Chunk。

问题向量
  -> 查找最近的 K 个文档向量
  -> 返回候选 Chunk

Top K 不是越大越好。K 太小可能漏召回，K 太大可能引入噪声。

Embedding 模型要用检索评估集验证，不要只看通用榜单。

因此企业 RAG 通常需要混合检索、元数据过滤和权限控制。

Q：同一个 Embedding 模型能适合所有场景吗？

A：不一定。代码、中文、法律、医疗、企业术语等场景可能需要不同模型或混合检索策略。

Q：Top K 应该设置多少？

A：没有固定值。要看 Chunk 大小、问题类型、重排能力和模型上下文窗口，通过评估集调整。

Q：语义检索能处理权限吗？

A：不能。权限必须由业务系统或检索层基于用户身份和元数据过滤。

上次更新: 2026/06/25, 17:53:09