RAG 实践课程 — 从认知到企业级

Page Summary

这页的作用

帮你确认当前该学哪一阶段、每个版本解决什么问题，以及学完后该产出什么能力。

使用方式

第一次学习按阶段顺序往下走；回查问题时直接去文档索引或知识地图。

必须记住

每个版本只增加一个关键机制。没有理解 v2，就不要跳去 v7。

Learning Routes

零基础概念线

00 路线图 → 01 概念手册 → 02 代码讲解 V1

完成标志：能解释 embedding、余弦相似度、RAG 最小循环。

代码实战线

02 代码讲解 → code/01 → code/02 → code/03

完成标志：能跑通最小 RAG、比较 3 种 chunk 策略、算出检索指标。

项目落地线

03 工程手册 → 知识地图 → 5D 完全理解

完成标志：能讲清评估方法、失败模式、方案边界和升级方向。

Lookup Entry

查阅不要从路线图开始

路线图负责“先学什么”，查问题时直接去索引页或知识地图，点击成本更低。

        打开文档索引与术语速查 →
        打开知识地图 →
      

PHASE 01 地基：RAG 核心循环

v1 · MINIMAL RAG LOOP

最小 RAG 循环

"三步走完，RAG 的本质就在这里"

核心概念

Embedding 余弦相似度 Top-K 检索 Prompt 注入上下文 RAG = 检索 + 生成

实践工具

OpenAI API numpy 纯 Python（无框架）

动手任务

手写 5 段文本的 embedding + cosine 检索
用 print 打印完整 RAG 数据流
实验：不带上下文 vs 带上下文，答案差异对比

认知对齐：RAG 不神秘——query 进来，找到相关段落，一起塞给 LLM。整个系统就是这个循环。

v2 · DOCUMENT CHUNKING

文档加载与分块策略

"分块决定上限，垃圾进垃圾出"

核心概念

chunk_size chunk_overlap Fixed-size vs Semantic 句子级分块 Markdown / PDF 解析

实践工具

LangChain TextSplitter pypdf 手写分块器

动手任务

同一文档用 256 / 512 / 1024 token 分块，比较检索结果
实现带 overlap 的分块，感受边界语义损失
解析公司内部 PDF，输出 chunk 列表

认知对齐：chunk 太小丢上下文，chunk 太大噪声多。分块是 RAG 质量的第一个工程决策，没有通用最优解。

v3 · VECTOR DATABASE

向量数据库集成

"向量数据库是 RAG 的长期记忆"

核心概念

持久化索引 HNSW 算法 ANN 近似最近邻 Metadata 过滤 Collection / Namespace

实践工具

ChromaDB（本地） Qdrant（云端） FAISS（对比）

动手任务

将 v2 的 chunks 入库 ChromaDB，持久化到磁盘
实现带 metadata 过滤的检索（按文档来源 / 日期）
体验"增量入库"：新文档不重算旧 embedding

认知对齐：embedding 不能每次都重算。向量库 = 索引 + 持久化 + 过滤。HNSW 是为什么它能"毫秒级"检索百万向量的原因。

PHASE 02 · RETRIEVAL QUALITY

PHASE 02 检索质量优化

v4 · EMBEDDING MODELS

Embedding 模型选型与优化

"Embedding 决定检索的天花板"

核心概念

Bi-encoder 架构多语言支持向量维度与质量 Domain-specific 微调 MTEB Benchmark

实践工具

text-embedding-3-small/large BGE-M3 sentence-transformers

动手任务

同语料，换 3 种 embedding 模型，对比检索命中率
中文专业术语场景：通用 vs 领域模型效果差异实验
成本估算：不同模型的 token 价格 vs 效果 ROI

认知对齐：Embedding 模型不是越大越好。领域适配性、多语言能力、价格三者需要平衡。这是第一个真正影响生产质量的决策点。

v5 · HYBRID SEARCH

混合检索（Dense + Sparse）

"稠密补语义，稀疏补关键词，没有银弹"

核心概念

BM25 稀疏检索 Dense 向量检索倒排索引 Reciprocal Rank Fusion 权重融合策略

实践工具

rank_bm25 Qdrant Hybrid Elasticsearch

动手任务

实现 RRF 融合：BM25 结果 + 向量检索结果合并排序
设计测试集：找出"纯语义检索丢失的关键词 case"
调整 alpha 权重，感受 dense/sparse 比例对结果的影响

认知对齐：语义检索不认识缩写、产品型号、专有名词；关键词检索不懂近义词。混合检索是生产系统的标准配置，不是可选项。

v6 · RERANKING

重排序（召回 → 精排）

"召回保量，精排保质"

核心概念

Cross-encoder 架构 Bi-encoder vs Cross-encoder 召回 Top-N → 精排 Top-K 相关性打分延迟 vs 质量权衡

实践工具

Cohere Rerank bge-reranker cross-encoder/ms-marco

动手任务

召回 Top-20，Rerank 后取 Top-5，和直接 Top-5 对比
测量 reranker 增加的延迟（p50 / p99）
找出 reranker 最有效的 case 类型（长尾 query）

认知对齐：Reranker 解决的是"召回对了但排序错了"的问题。两阶段架构（粗排+精排）是信息检索的经典范式，不是 RAG 的专利。

PHASE 03 · QUERY INTELLIGENCE + EVALUATION

PHASE 03 查询智能 + 评估体系

v7 · QUERY TRANSFORMATION

查询变换与扩展

"用户的问题往往不是最好的检索 query"

核心概念

Multi-Query HyDE 假设文档 Step-back Prompting Query Decomposition 查询改写

实践工具

LLM（改写 query） LangChain MultiQueryRetriever

动手任务

实现 HyDE：让 LLM 先生成一段"假设的答案"，用它检索
实现 Multi-Query：一个问题拆成 3 个 query，结果集并集
对比：原始 query vs 改写后 query 的命中率变化

认知对齐：LLM 可以帮助"翻译"用户意图为更好的检索语言。查询优化是成本低收益高的优化点，在其他条件不变的情况下能显著提升质量。

v8 · EVALUATION FRAMEWORK

RAG 评估体系

"不可度量的，不可改进"

核心概念

Faithfulness 忠实度 Answer Relevancy Context Precision Context Recall Golden Dataset

实践工具

RAGAS LangSmith 手动构建测试集

动手任务

为目标场景构建 20 条 QA Golden Dataset
用 RAGAS 对 v1 到 v7 的系统分别打分，绘制对比图
找出 Faithfulness 最低的 case，分析根因（幻觉来源）

认知对齐：没有评估框架，优化就是瞎猜。Faithfulness 衡量"答案有没有编造"，Context Recall 衡量"相关内容有没有被捞到"，这两个指标定位的是不同的问题根因。

PHASE 04 · ADVANCED + ENTERPRISE

PHASE 04 高级模式 + 企业生产

v9 · AGENTIC RAG

Agentic RAG 高级模式

"让模型决定何时检索、检索什么"

核心概念

Self-RAG Agentic Retrieval Multi-hop 推理 GraphRAG 结构化知识 Corrective RAG

实践工具

LangGraph Tool Calling Neo4j（GraphRAG）

动手任务

构建 Agentic RAG：LLM 自主决定是否需要检索
实现 Multi-hop：第一次检索结果作为第二次检索的 query
加入"检索结果相关性判断"节点，低于阈值则重新检索

认知对齐：传统 RAG 是管道式的，Agentic RAG 是有状态的循环。引入 Agent 后，系统能处理"一次检索解决不了"的复杂问题，但延迟和成本会上升，需要权衡。

v10 · ENTERPRISE PRODUCTION

企业级生产 RAG 系统

"从 Demo 到生产，差距在工程"

核心概念

多租户权限隔离增量索引更新语义缓存可观测性 Tracing Guardrails 安全护栏成本控制策略

实践工具

LangSmith / Langfuse Redis 语义缓存 FastAPI 服务化 Docker 部署

动手任务

实现多租户：不同用户只能访问自己的知识库 namespace
接入 Langfuse：记录每次检索的 chunk、延迟、评分
实现语义缓存：相似问题命中缓存，P99 延迟降低 80%
设计增量更新流程：新文档上传 → 自动入库 → 不影响在线服务
输出一份系统架构文档（售前转化用）

认知对齐：企业级 RAG = 正确性 + 可靠性 + 可维护性 + 成本可控。你需要能回答客户"数据会不会泄露给其他用户？系统挂了怎么排查？每月费用怎么算？"——这些才是售前背景最大的优势所在。

学习哲学

每个版本只增加一个机制。
跑通，观察，打破，理解边界。

不要在 v2 还没搞清楚的时候去跑 v7。
分块质量不解决，换再好的 Reranker 也是在烂地基上盖楼。

每个版本做完，问自己三个问题：
这个机制解决了什么问题？
它的代价是什么？
什么时候不需要它？

答得出来，才算真正理解。

完整 RAG 系统架构

Enterprise RAG Stack ═══════════════════════ Query Layer 用户输入 → Query 改写 (v7) → 语义缓存命中? (v10) Retrieval Layer → Dense 检索 (v1/v3) → Sparse BM25 (v5) → RRF 融合 (v5) → Reranker 精排 (v6) Generation Layer → Context 组装 → LLM 生成 → Guardrails 检查 (v10) Observability → Tracing / Scoring (v8/v10) → Cost Tracking (v10) 每个版本 = 加一层，理解一层