Agent Planning & Reasoning
AI Agent 系列 · Planning & Reasoning 架构深度笔记
先看什么
一个可以直接在浏览器打开的交互式文档,不需要安装任何东西:
planning-reasoning-5d.html ← 从这里开始
打开后有 17 个 Tab,建议顺序:
- 第一次接触 → 从「🗺 总览」开始,建立整体轮廓
- 理解概念 → 「① 分层解构」→「② 对比辨析」→「③ 类比迁移」
- 挖深度 → 「🔍 三问深挖」→「🔬 底层原理」
- 准备面试 → 「📜 模式溯源」→「🎯 面试题库」
- 上手实现 → 「🧩 任务路由」→「💻 完整案例」→「🏗️ 框架全景」
这份笔记讲什么
核心问题:为什么 AI Agent 需要 Planning?它和”写一个很长的 Prompt”有什么本质区别?
这是很多人学了很久 Agent 之后还没想清楚的问题。这份笔记从这个问题出发,一路挖到底层:
LLM 无状态 + 任务有状态
↓
必须由外部框架维护状态 + 协调多次调用顺序
↓
Planning 就是这个协调机制的设计
搞清楚这一句话,ReAct / Plan-and-Execute / Multi-Agent / Loop Detection 这些概念就全部串起来了。
17 个 Tab 内容一览
| Tab | 核心内容 |
|---|---|
| 🗺 总览 | 一句话定义 · 完整流程图 · 前额叶 vs 脊髓反射类比 |
| ① 分层解构 | 三层拆解:目标分解 → 执行推理 → 死循环检测 |
| ② 对比辨析 | ReAct / Plan-and-Execute / Multi-Agent 对比表 · 移动端特殊约束 |
| ③ 类比迁移 | 外卖骑手 vs 高德导航 · 医生诊断 · 大厨 vs 流水线工人 |
| ④ 错误雷达 | 5 个高频认知错误 · 每个附修正方案 |
| ⑤ 实战场景 | Speakeasy 3 个真实场景 · Loop Detection 完整代码 |
| 🔍 三问深挖 | 6 组三连问,每组挖到不能再挖的底层原理 |
| 🧭 新手认知地图 | 5 个最反直觉的错误心智模型(折叠卡片) |
| ✅ 理解验证 | 5 道测验,点击选项即显解析 |
| 📜 模式溯源 | 三种模式的历史来源 · 解决了什么问题 · 遗留了什么问题 |
| 🧬 推理演化史 | 2017 Transformer → 2025 端侧推理的完整技术时间线 |
| 🔧 生产实战 | 5 个高频生产踩坑 · 上下文爆炸 / 工具幻觉 / 成本失控 |
| 🎯 面试题库 | 8 道分级题(基础 / 中级 / 高级 / 架构)· 含答案框架 + 常见失误 |
| 🧩 任务路由 | 四维识别框架 · 决策树代码 · 5 个 Speakeasy 路由实例 |
| 💻 完整案例 | 完整业务闭环代码:路由 → 规划 → 执行引擎 → 工具层 → 输出 |
| 🏗️ 框架全景 | LangGraph / CrewAI / AutoGen 等选型对比 · 移动端工具链 |
| 🔬 底层原理 | 为什么不能单一 Prompt · Belief 是什么 · LLM 无状态的全部推论 |
三种模式速查
任务特征 推荐模式
────────────────────────────────────────────────────
步骤 ≤ 3 / 需要实时交互 ReAct
步骤 > 3 / 步骤可预知 Plan-and-Execute ← 移动端长任务首选
跨 3+ 专业域 / 需要并行 Multi-Agent ← 谨慎,协调成本高
Loop Detection 核心逻辑:
function detectLoop(actionHistory, windowSize = 3) {
const recent = actionHistory.slice(-windowSize);
const fingerprints = recent.map(a =>
`${a.tool}:${JSON.stringify(a.normalized_input)}`
);
// 窗口内出现相同「工具 + 输入」组合 ≥ 2 次,判定为死循环
return fingerprints.some((f, i) => fingerprints.indexOf(f) !== i);
}交互特性
打开 HTML 文件后:
- 橙色下划线词 — 点击,右侧滑出深度解析(含三连问 + 代码示例 + Speakeasy 例子)
- 面试题 / 认知地图 — 点击展开答案,再次点击收起
- 测验系统 — 选完即显解析,5 题答完显示总分
- 顶部进度条 — 橙色,随滚动实时更新
适合什么阶段
| 你现在的情况 | 建议用法 |
|---|---|
| 刚开始接触 Agent,被术语淹没 | 从头到尾看一遍,重点看「总览」+「新手认知地图」 |
| 有基础但概念模糊,分不清三种模式 | 直接看「② 对比辨析」+「📜 模式溯源」 |
| 准备 AI Agent 相关岗位面试 | 「🎯 面试题库」+「🔍 三问深挖」,重点看「常见失误」 |
| 要在项目里落地 Agent 架构 | 「🧩 任务路由」+「💻 完整案例」+「🏗️ 框架全景」 |
| 想真正弄懂底层,不只是会用 | 「🔬 底层原理」+「🔍 三问深挖」,直到能用自己的话解释给别人听 |
关联内容
| 目录 | 关系 |
|---|---|
../rag/ | 同系列 · 同框架 · 另一个核心知识领域 |
../mcp/ | Agent 工具调用层:如何定义和接入工具 |
../methodology/ | 这整套笔记使用的 5D 学习方法论 |
笔记来自真实学习过程,包含反复追问后才搞清楚的认知和踩过的坑。如果发现错误欢迎开 Issue。