RAG 评估方案汇总


一、评估的三个阶段

文档 → [Chunking] → Embedding → [Retrieval] → Prompt → [Generation] → 回答
          ↑                         ↑                        ↑
       间接评估                   直接评估                  直接评估

二、核心指标体系

Retriever 侧

指标含义怎么算
Context Recall该召回的都召回了吗命中 ground truth 的比例
Context Precision召回的里有多少是有用的相关文档 / 总召回文档
Hit RateTop-K 里有没有正确文档有=1,无=0
MRR正确文档排第几1/rank 的均值

Generator 侧

指标含义说明
Faithfulness回答是否忠实于检索内容有没有超出上下文发挥
Answer Relevancy回答是否切题和问题的相关程度
Hallucination凭空捏造了多少RAGChecker 的 claim 级别检测
Noise Sensitivity被无关文档带跑了吗塞入噪声文档后回答是否变差

三、主流工具选型

工具定位适用阶段
RAGAS综合评估,最流行研究 / 快速验证
RAGCheckerClaim 级诊断,找锅归属生产排查
DeepEval5指标,可追溯到 chunk 参数工程优化
Arize PhoenixEmbedding 可视化debug 召回失败

四、没有 ground truth 怎么办

真实场景往往没有标注数据,两种解法:

  1. 合成数据:用 LLM 从文档自动生成 QA 对作为 ground truth(RAGAS 内置支持)
  2. 无参考评估:只看 Faithfulness + Answer Relevancy,不依赖标准答案

五、MRR vs RAGAS 4 指标:什么阶段用什么

指标衡量维度需要 LLM?适用阶段
MRR检索排名(top-1 是否命中)✗ 纯规则早期快速迭代(v3.5~v7)
Context Recall信息覆盖度(连续值 0-1)✓ 语义判断全面评估阶段
Context Precision检索噪音比例✓ 语义判断全面评估阶段
Faithfulness生成是否有幻觉✓ 事实核查全面评估阶段
Answer Relevancy生成是否切题✓ 相关性判断全面评估阶段

MRR 的两个盲区

  1. 不衡量生成质量——检索完美,LLM 仍可能产生幻觉
  2. 不区分”召回了有用的”vs”召回了噪音”——只关心 top-1 是否命中

使用策略

  • 早期快速迭代 → MRR:无 LLM 成本,一秒出结果,适合调参循环
  • 阶段性全面评估 → RAGAS 4 指标:覆盖检索+生成,成本高但完整

六、学习路径对应

你的进度对应评估动作
V1 最小 RAG(当前)肉眼对比有/无 RAG 的回答差异
V2 分块策略改变 chunk_size,对比 Context Recall 变化
V3 混合检索对比纯向量 vs 混合的 Hit Rate
V4 评估 pipeline接入 RAGAS,跑自动化指标
生产优化接入 RAGChecker,定位具体失效点