这页是 首页 的详细学习路径,负责按版本顺序拆解学习节奏,不负责概念速查。 带着具体问题来请用 快速回查;生产落地问题请看 工程手册
适合任务
第一次系统学习 RAG,建立阶段感,知道什么时候切到概念、代码和工程方法。
前置阅读
总站首页,确认你当前是来按顺序学习,而不是来做术语回查。
Page Summary
这页的作用
帮你确认当前该学哪一阶段、每个版本解决什么问题,以及学完后该产出什么能力。
使用方式
第一次学习按阶段顺序往下走;回查问题时直接去文档索引或知识地图。
必须记住
每个版本只增加一个关键机制。没有理解 v2,就不要跳去 v7。
Learning Routes
零基础概念线
00 路线图 → 01 概念手册 → 02 代码讲解 V1
完成标志:能解释 embedding、余弦相似度、RAG 最小循环。
代码实战线
02 代码讲解 → code/01 → code/02 → code/03
完成标志:能跑通最小 RAG、比较 3 种 chunk 策略、算出检索指标。
项目落地线
03 工程手册 → 知识地图 → 5D 完全理解
完成标志:能讲清评估方法、失败模式、方案边界和升级方向。
Lookup Entry
查阅不要从路线图开始

路线图负责“先学什么”,查问题时直接去索引页或知识地图,点击成本更低。

打开文档索引与术语速查 → 打开知识地图 →
PHASE 01 地基:RAG 核心循环
v1 · MINIMAL RAG LOOP
最小 RAG 循环
"三步走完,RAG 的本质就在这里"
Embedding 余弦相似度 Top-K 检索 Prompt 注入上下文 RAG = 检索 + 生成
OpenAI API numpy 纯 Python(无框架)
  • 手写 5 段文本的 embedding + cosine 检索
  • 用 print 打印完整 RAG 数据流
  • 实验:不带上下文 vs 带上下文,答案差异对比
认知对齐:RAG 不神秘——query 进来,找到相关段落,一起塞给 LLM。整个系统就是这个循环。
v2 · DOCUMENT CHUNKING
文档加载与分块策略
"分块决定上限,垃圾进垃圾出"
chunk_size chunk_overlap Fixed-size vs Semantic 句子级分块 Markdown / PDF 解析
LangChain TextSplitter pypdf 手写分块器
  • 同一文档用 256 / 512 / 1024 token 分块,比较检索结果
  • 实现带 overlap 的分块,感受边界语义损失
  • 解析公司内部 PDF,输出 chunk 列表
认知对齐:chunk 太小丢上下文,chunk 太大噪声多。分块是 RAG 质量的第一个工程决策,没有通用最优解。
v3 · VECTOR DATABASE
向量数据库集成
"向量数据库是 RAG 的长期记忆"
持久化索引 HNSW 算法 ANN 近似最近邻 Metadata 过滤 Collection / Namespace
ChromaDB(本地) Qdrant(云端) FAISS(对比)
  • 将 v2 的 chunks 入库 ChromaDB,持久化到磁盘
  • 实现带 metadata 过滤的检索(按文档来源 / 日期)
  • 体验"增量入库":新文档不重算旧 embedding
认知对齐:embedding 不能每次都重算。向量库 = 索引 + 持久化 + 过滤。HNSW 是为什么它能"毫秒级"检索百万向量的原因。
PHASE 02 · RETRIEVAL QUALITY
PHASE 02 检索质量优化
v4 · EMBEDDING MODELS
Embedding 模型选型与优化
"Embedding 决定检索的天花板"
Bi-encoder 架构 多语言支持 向量维度与质量 Domain-specific 微调 MTEB Benchmark
text-embedding-3-small/large BGE-M3 sentence-transformers
  • 同语料,换 3 种 embedding 模型,对比检索命中率
  • 中文专业术语场景:通用 vs 领域模型效果差异实验
  • 成本估算:不同模型的 token 价格 vs 效果 ROI
认知对齐:Embedding 模型不是越大越好。领域适配性、多语言能力、价格三者需要平衡。这是第一个真正影响生产质量的决策点。
v5 · HYBRID SEARCH
混合检索(Dense + Sparse)
"稠密补语义,稀疏补关键词,没有银弹"
BM25 稀疏检索 Dense 向量检索 倒排索引 Reciprocal Rank Fusion 权重融合策略
rank_bm25 Qdrant Hybrid Elasticsearch
  • 实现 RRF 融合:BM25 结果 + 向量检索结果合并排序
  • 设计测试集:找出"纯语义检索丢失的关键词 case"
  • 调整 alpha 权重,感受 dense/sparse 比例对结果的影响
认知对齐:语义检索不认识缩写、产品型号、专有名词;关键词检索不懂近义词。混合检索是生产系统的标准配置,不是可选项。
v6 · RERANKING
重排序(召回 → 精排)
"召回保量,精排保质"
Cross-encoder 架构 Bi-encoder vs Cross-encoder 召回 Top-N → 精排 Top-K 相关性打分 延迟 vs 质量权衡
Cohere Rerank bge-reranker cross-encoder/ms-marco
  • 召回 Top-20,Rerank 后取 Top-5,和直接 Top-5 对比
  • 测量 reranker 增加的延迟(p50 / p99)
  • 找出 reranker 最有效的 case 类型(长尾 query)
认知对齐:Reranker 解决的是"召回对了但排序错了"的问题。两阶段架构(粗排+精排)是信息检索的经典范式,不是 RAG 的专利。
PHASE 03 · QUERY INTELLIGENCE + EVALUATION
PHASE 03 查询智能 + 评估体系
v7 · QUERY TRANSFORMATION
查询变换与扩展
"用户的问题往往不是最好的检索 query"
Multi-Query HyDE 假设文档 Step-back Prompting Query Decomposition 查询改写
LLM(改写 query) LangChain MultiQueryRetriever
  • 实现 HyDE:让 LLM 先生成一段"假设的答案",用它检索
  • 实现 Multi-Query:一个问题拆成 3 个 query,结果集并集
  • 对比:原始 query vs 改写后 query 的命中率变化
认知对齐:LLM 可以帮助"翻译"用户意图为更好的检索语言。查询优化是成本低收益高的优化点,在其他条件不变的情况下能显著提升质量。
v8 · EVALUATION FRAMEWORK
RAG 评估体系
"不可度量的,不可改进"
Faithfulness 忠实度 Answer Relevancy Context Precision Context Recall Golden Dataset
RAGAS LangSmith 手动构建测试集
  • 为目标场景构建 20 条 QA Golden Dataset
  • 用 RAGAS 对 v1 到 v7 的系统分别打分,绘制对比图
  • 找出 Faithfulness 最低的 case,分析根因(幻觉来源)
认知对齐:没有评估框架,优化就是瞎猜。Faithfulness 衡量"答案有没有编造",Context Recall 衡量"相关内容有没有被捞到",这两个指标定位的是不同的问题根因。
PHASE 04 · ADVANCED + ENTERPRISE
PHASE 04 高级模式 + 企业生产
v9 · AGENTIC RAG
Agentic RAG 高级模式
"让模型决定何时检索、检索什么"
Self-RAG Agentic Retrieval Multi-hop 推理 GraphRAG 结构化知识 Corrective RAG
LangGraph Tool Calling Neo4j(GraphRAG)
  • 构建 Agentic RAG:LLM 自主决定是否需要检索
  • 实现 Multi-hop:第一次检索结果作为第二次检索的 query
  • 加入"检索结果相关性判断"节点,低于阈值则重新检索
认知对齐:传统 RAG 是管道式的,Agentic RAG 是有状态的循环。引入 Agent 后,系统能处理"一次检索解决不了"的复杂问题,但延迟和成本会上升,需要权衡。
v10 · ENTERPRISE PRODUCTION
企业级生产 RAG 系统
"从 Demo 到生产,差距在工程"
多租户权限隔离 增量索引更新 语义缓存 可观测性 Tracing Guardrails 安全护栏 成本控制策略
LangSmith / Langfuse Redis 语义缓存 FastAPI 服务化 Docker 部署
  • 实现多租户:不同用户只能访问自己的知识库 namespace
  • 接入 Langfuse:记录每次检索的 chunk、延迟、评分
  • 实现语义缓存:相似问题命中缓存,P99 延迟降低 80%
  • 设计增量更新流程:新文档上传 → 自动入库 → 不影响在线服务
  • 输出一份系统架构文档(售前转化用)
认知对齐:企业级 RAG = 正确性 + 可靠性 + 可维护性 + 成本可控。你需要能回答客户"数据会不会泄露给其他用户?系统挂了怎么排查?每月费用怎么算?"——这些才是售前背景最大的优势所在。
学习哲学

每个版本只增加一个机制。
跑通,观察,打破,理解边界。

不要在 v2 还没搞清楚的时候去跑 v7。
分块质量不解决,换再好的 Reranker 也是在烂地基上盖楼。

每个版本做完,问自己三个问题:
这个机制解决了什么问题?
它的代价是什么?
什么时候不需要它?

答得出来,才算真正理解。

完整 RAG 系统架构
Enterprise RAG Stack ═══════════════════════ Query Layer 用户输入 → Query 改写 (v7) → 语义缓存命中? (v10) Retrieval LayerDense 检索 (v1/v3) → Sparse BM25 (v5) → RRF 融合 (v5) → Reranker 精排 (v6) Generation LayerContext 组装LLM 生成Guardrails 检查 (v10) ObservabilityTracing / Scoring (v8/v10) → Cost Tracking (v10) 每个版本 = 加一层,理解一层
下一步与回查