RAG 文档索引与术语速查

按主题查

Embedding / 向量 / 余弦相似度

概念原理、维度含义、为什么余弦更适合语义检索。

打开

Chunking / overlap / 分块边界

为什么分块决定上限，以及 V2 代码里三种分块策略的行为差异。

打开

Recall@K / MRR / 黄金数据集

做优化前先定义尺子，避免“凭感觉优化”。

打开

混合检索 / Reranking / GraphRAG

生产级增强策略、适用边界和扩展方向。

打开

按问题查

为什么用余弦相似度而不是欧氏距离 chunk 多大合适，overlap 取多少为什么 Demo 能跑但系统不好用什么时候该用 RAG，什么时候不该用 RAG 全链路有哪些模块 RAG 和微调到底怎么分工

Knowledge Objects

标准知识对象

Concept Object · 最后更新 2026-03-21

Embedding

一句话定义：把文本映射成向量表示，让“语义接近”可以被检索系统计算。

适用任务：理解语义检索、解释向量召回、选 embedding 模型。
常见误区：误以为每一维都有可解释的人类含义。
实践建议：先理解余弦相似度，再看模型排行榜。
相关代码：`01_v1_最小RAG循环.py` 的 embedding 与相似度计算。

深入原理 → 对应代码 →

Concept Object · 最后更新 2026-03-21

Chunk / Overlap

一句话定义：把文档切成可检索的信息单元，并用 overlap 降低边界切断带来的语义损失。

适用任务：调召回、解释分块策略、比较 chunking 方案。
常见误区：一味追求块越小越准，忽略语义完整性。
实践建议：先用 200-500 字符、10%-20% overlap 作为基线。
相关代码：`02_v2_文档分块策略.py`。

看代码策略 → 看失败模式 →

Metric Object · 最后更新 2026-03-21

Recall / MRR

一句话定义：用来判断检索有没有把正确内容找回来，以及把正确结果排在了多靠前的位置。

适用任务：建立 Golden Dataset、验证召回优化是否有效。
常见误区：只看最终答案，不看检索层指标。
实践建议：先定义标准问答集，再比较策略差异。
相关代码：`03_v3.5_黄金数据集.py`。

看评估方法 → 看项目检查点 →

Method Object · 最后更新 2026-03-21

Reranking

一句话定义：在粗召回后的候选结果上做精排序，用更高的相关性换取额外延迟。

适用任务：候选里已有“差不多相关”的片段，但排序不够准。
常见误区：把 reranker 当成解决所有检索问题的万能补丁。
实践建议：先确认召回已包含正确候选，再加 reranker。
相关页面：5D 辨析页、知识地图、工程边界页。

看适用边界 → 看系统位置 →

维护规则：这里是高频概念的标准入口。其他页面出现这些概念时，只保留当前语境下的解释，不再重复写完整定义。

按场景查

学习首轮

从零理解

先看课程路线图建立顺序感
再读概念手册理解 embedding / 检索
接着跑 V1 / V2 代码

项目调优

发现效果不好

先看失败模式，判断问题出在召回还是生成
再回查 chunk / rerank / 评估指标
最后设计 Golden Dataset 做验证

方案说明

售前 / 面试 / 讲解

用 5D 页解释原理、边界和典型架构
用知识地图展示流程
用工程手册说明落地方法

术语表与参数速查

词条	一句话定义	建议回看
Embedding	把文本转成高维向量，使语义相近的内容在向量空间里更接近。	概念手册
Chunk	文档切分后的最小检索单元，太碎会丢语义，太大则噪声多。	代码讲解 V2
Reranking	在粗召回候选集上做精排序，用精度换取额外延迟。	5D 完全理解
Recall@K	相关内容有没有被找回来，衡量“找全不找全”。	工程手册

参数速查表

参数 / 决策	建议基线	备注
chunk size	200-500 字符	技术文档优先保证句子或段落完整。
overlap	10%-20%	用于保住块边界的信息。
Top-K	5-10	过低会漏召回，过高会给 LLM 带来噪声。
何时加 Reranker	召回对了但排序不准时	典型生产增强项。
何时做混合检索	关键词、编号、自然语言同时重要时	如条款号、产品代码、FAQ 混合场景。