RAG评估与优化

RAG 系统必须评估，否则很难知道问题出在检索、重排、上下文还是生成。RAG 优化的核心是把失败样本定位到具体链路。

# 1. RAG 评估链路

问题集
  -> 检索结果评估
  -> 上下文质量评估
  -> 生成答案评估
  -> 引用准确性评估
  -> 失败归因
  -> 优化切分 / 检索 / 重排 / Prompt

检索评估要有标注好的问题和正确资料来源。

建议按证据链优化：

不要一上来就换大模型。很多 RAG 问题本质是数据和检索问题。

评估集应包含：

用户点踩 / 转人工 / 搜索无结果
  -> 收集问题和上下文
  -> 标注失败原因
  -> 加入评估集
  -> 优化链路
  -> 回归测试

Q：RAG 效果差应该先换模型吗？

A：不一定。先看正确资料是否存在、是否被召回、是否排在前面。很多问题换模型也解决不了。

Q：如何判断是检索问题还是生成问题？

A：如果正确资料没进上下文，是检索问题；如果正确资料已进上下文但答案错，是生成或 Prompt 问题。

Q：RAG 评估能完全自动化吗？

A：可以自动化一部分，但关键业务和边界问题仍需要人工标注和复核。

上次更新: 2026/06/25, 17:53:09