MemGPT / Letta 小白指南

用生活化比喻理解 LLM 的"长期记忆"系统

一、用"秘书"比喻理解 MemGPT / Letta

想象你雇了一个秘书帮你处理事务。

她多了三样东西：

一张便签条，始终贴在她眼前（叫 Working Context / 核心记忆）
写着："老板叫 Bob，程序员，喜欢简洁回答，正在研究 agent 记忆系统。" 每次对话她一抬眼就看见——不用你重复。
一个档案柜，在她身后（叫 Archival Memory / 长期记忆）
重要事情她会主动起身，写成卡片归档进去。下次需要时她翻柜子找。
一本通话记录本（叫 Recall Memory / 对话历史）
所有聊过的话都留底，可以回查"上周三你说过什么"。

关键一点：这个秘书会自己判断什么该写进便签、什么该归档、什么时候该去翻档案柜。她用的工具就是几个函数调用——写便签、存档案、查档案。这就是 MemGPT 论文最核心的想法：让 LLM 自己管理自己的记忆，就像操作系统管理内存一样。

RAG（Retrieval-Augmented Generation，检索增强生成）你大概听过：把一堆文档切片塞进向量数据库，用户提问时检索相关片段拼进 prompt。

表面上看，Letta 也有向量库、也做检索，好像就是 RAG？不是。区别在四个维度：

维度	传统 RAG	MemGPT / Letta
记什么	静态知识库（产品手册、论文、wiki）	会话中动态产生的事实（"用户女儿叫 Lily"、"上次决定用 Postgres"）
谁来写	工程师离线灌库，用户不参与	Agent 自己在对话中判断并写入
何时检索	每次用户提问都无脑检索一次	Agent 判断需要时才主动调用 `search` 工具
常驻记忆	没有，每次都是现查现用	有便签区（Working Context），关键信息始终在眼前

一句话区别：
• RAG 像图书馆——书早就摆好了，你每次去查一本。
• Letta 像秘书的工作记忆——她边聊边记、边记边整理，重要的贴眼前、次要的归档、琐碎的留记录。

它们不冲突。Letta 里完全可以再接一个 RAG 来查产品手册—— 秘书一边记你的偏好（Letta 的活），一边翻公司规章（RAG 的活）。

项目地址：github.com/letta-ai/letta

给 agent 装上长期记忆跑一个 Letta 服务（Docker 一条命令），通过 SDK / REST 创建 agent，自动持久化到 Postgres。今天聊完关掉，明天接着聊它还记得你。
把记忆"看得见摸得着"提供 ADE（Agent Development Environment）可视化界面，直接看到便签区写了什么、档案柜里有哪些卡片、每次调用了哪个工具。
换模型不用改代码底层可接 Claude / GPT / Gemini / 本地 Llama，切模型改配置即可。
多 agent、多用户多 agent 之间可以互发消息（研究员 agent 把结论扔给写作 agent），支持多用户各自独立记忆。
自定义工具除了内置记忆工具，可加自己的函数（查天气、下订单、调内部 API），用法与 OpenAI function calling 类似。

不是开箱即用的产品它是框架不是应用。要自己写前端、接业务逻辑，"拿来就用"的体验它给不了。
记忆会犯错Agent 自己决定"这事值得记吗"，有时漏记或误记。生产环境需要人工审校或额外护栏。
超大知识库不如专用 RAG如果需求是"10 万份 PDF 里搜答案"，Letta 能跑但质量不如 LlamaIndex、Haystack 等专用方案。它的强项是对话型记忆，不是海量文档检索。
延迟更高更贵每轮对话 agent 可能触发 3–5 次模型调用（查档案、写便签），比普通 LLM 调用慢且成本高。
救不了笨模型不解决"模型本身不够聪明"的问题。底层模型笨，Letta 也救不了。
生态仍在早期API 还在变化，文档有坑，中文资料稀少。小白上手要有心理准备。

如果你是第一次接触，建议这个顺序：