baseline.json 中为什么 Q001的mrr 是0.5，rag存在哪些问题？

cline 回答

Q001 MRR=0.5 的原因：

RAG 存在的主要问题：

改进方向：缩小 chunk 大小、添加 rerank 步骤、混合检索

001 MRR=0.5 的原因：答案排在了 rank 2，不是 rank 1。

Query : “RAG 的分块推荐用多大？overlap 比例是多少？” Top-1 : “RAG系统架构与工程实践指南一、什么是RAG …” ← 答案不在这里 Top-2 : “推荐分块大小在200到500个字符之间…” ← 答案在这里

Query 里有”RAG”，而介绍 RAG 定义的 chunk 全篇都在说 RAG，向量相似度反而最高——它把主题词的语义相似误当成了问题的答案相关。

这暴露了三个 RAG 的真实问题：

① 主题词干扰高频词（RAG）主导了向量方向。查询里带着主题词，全库含这个词的 chunk 都得高分，淹没了真正有答案的 chunk。根本原因是 embedding 模型在语料层面把”RAG”当做强信号。

② 向量检索不区分”关于X”和”X的子问题答案” “RAG 的分块推荐多大”和”什么是 RAG”的向量距离很近——都在 RAG 的语义空间里。但前者是在问一个具体参数，后者是概述。向量检索无法区分这个意图层级的差异。

③ 精确词被忽略 “overlap”、“200到500字符”、“10%到20%“这些精确词如果用 BM25 来查，会直接命中答案 chunk。这正是 v5 混合检索要补的短板——向量擅长语义，BM25 擅长精确词匹配，两者不可互相替代。

延伸：这个 case 在真实生产里很常见，表现为”用户问了很具体的问题，RAG 却给出了笼统的介绍性内容”。修复方向：混合检索（v5）+ Query 改写（v6：把”RAG 的分块推荐多大”改写成”分块大小推荐字符数 overlap”，剥离主题词干扰）。