Agent Planning & Reasoning

AI Agent 系列 · Planning & Reasoning 架构深度笔记


先看什么

一个可以直接在浏览器打开的交互式文档,不需要安装任何东西:

planning-reasoning-5d.html   ← 从这里开始

打开后有 17 个 Tab,建议顺序

  • 第一次接触 → 从「🗺 总览」开始,建立整体轮廓
  • 理解概念 → 「① 分层解构」→「② 对比辨析」→「③ 类比迁移」
  • 挖深度 → 「🔍 三问深挖」→「🔬 底层原理」
  • 准备面试 → 「📜 模式溯源」→「🎯 面试题库」
  • 上手实现 → 「🧩 任务路由」→「💻 完整案例」→「🏗️ 框架全景」

这份笔记讲什么

核心问题:为什么 AI Agent 需要 Planning?它和”写一个很长的 Prompt”有什么本质区别?

这是很多人学了很久 Agent 之后还没想清楚的问题。这份笔记从这个问题出发,一路挖到底层:

LLM 无状态 + 任务有状态
      ↓
必须由外部框架维护状态 + 协调多次调用顺序
      ↓
Planning 就是这个协调机制的设计

搞清楚这一句话,ReAct / Plan-and-Execute / Multi-Agent / Loop Detection 这些概念就全部串起来了。


17 个 Tab 内容一览

Tab核心内容
🗺 总览一句话定义 · 完整流程图 · 前额叶 vs 脊髓反射类比
① 分层解构三层拆解:目标分解 → 执行推理 → 死循环检测
② 对比辨析ReAct / Plan-and-Execute / Multi-Agent 对比表 · 移动端特殊约束
③ 类比迁移外卖骑手 vs 高德导航 · 医生诊断 · 大厨 vs 流水线工人
④ 错误雷达5 个高频认知错误 · 每个附修正方案
⑤ 实战场景Speakeasy 3 个真实场景 · Loop Detection 完整代码
🔍 三问深挖6 组三连问,每组挖到不能再挖的底层原理
🧭 新手认知地图5 个最反直觉的错误心智模型(折叠卡片)
✅ 理解验证5 道测验,点击选项即显解析
📜 模式溯源三种模式的历史来源 · 解决了什么问题 · 遗留了什么问题
🧬 推理演化史2017 Transformer → 2025 端侧推理的完整技术时间线
🔧 生产实战5 个高频生产踩坑 · 上下文爆炸 / 工具幻觉 / 成本失控
🎯 面试题库8 道分级题(基础 / 中级 / 高级 / 架构)· 含答案框架 + 常见失误
🧩 任务路由四维识别框架 · 决策树代码 · 5 个 Speakeasy 路由实例
💻 完整案例完整业务闭环代码:路由 → 规划 → 执行引擎 → 工具层 → 输出
🏗️ 框架全景LangGraph / CrewAI / AutoGen 等选型对比 · 移动端工具链
🔬 底层原理为什么不能单一 Prompt · Belief 是什么 · LLM 无状态的全部推论

三种模式速查

任务特征                        推荐模式
────────────────────────────────────────────────────
步骤 ≤ 3  /  需要实时交互       ReAct
步骤 > 3  /  步骤可预知         Plan-and-Execute    ← 移动端长任务首选
跨 3+ 专业域  /  需要并行       Multi-Agent         ← 谨慎,协调成本高

Loop Detection 核心逻辑:

function detectLoop(actionHistory, windowSize = 3) {
  const recent = actionHistory.slice(-windowSize);
  const fingerprints = recent.map(a =>
    `${a.tool}:${JSON.stringify(a.normalized_input)}`
  );
  // 窗口内出现相同「工具 + 输入」组合 ≥ 2 次,判定为死循环
  return fingerprints.some((f, i) => fingerprints.indexOf(f) !== i);
}

交互特性

打开 HTML 文件后:

  • 橙色下划线词 — 点击,右侧滑出深度解析(含三连问 + 代码示例 + Speakeasy 例子)
  • 面试题 / 认知地图 — 点击展开答案,再次点击收起
  • 测验系统 — 选完即显解析,5 题答完显示总分
  • 顶部进度条 — 橙色,随滚动实时更新

适合什么阶段

你现在的情况建议用法
刚开始接触 Agent,被术语淹没从头到尾看一遍,重点看「总览」+「新手认知地图」
有基础但概念模糊,分不清三种模式直接看「② 对比辨析」+「📜 模式溯源」
准备 AI Agent 相关岗位面试「🎯 面试题库」+「🔍 三问深挖」,重点看「常见失误」
要在项目里落地 Agent 架构「🧩 任务路由」+「💻 完整案例」+「🏗️ 框架全景」
想真正弄懂底层,不只是会用「🔬 底层原理」+「🔍 三问深挖」,直到能用自己的话解释给别人听

关联内容

目录关系
../rag/同系列 · 同框架 · 另一个核心知识领域
../mcp/Agent 工具调用层:如何定义和接入工具
../methodology/这整套笔记使用的 5D 学习方法论

笔记来自真实学习过程,包含反复追问后才搞清楚的认知和踩过的坑。如果发现错误欢迎开 Issue。