张小珺 × 罗福莉（小米大模型）深度分析

视频：138. 对罗福莉3.5小时访谈：AI范式已然巨变！OpenCode、Agent范式很吃Post-train、卡的分配、组织平权频道：张小珺Jùn｜商业访谈录 · 2026 年（春节后）时长：3:36:36 嘉宾：罗福莉（小米大模型负责人，前 DeepSeek 等团队） YouTube：https://www.youtube.com/watch?v=vG1RBqn1sG4 B 站：https://www.bilibili.com/video/BV1iVoVBgERD/ 字幕来源：B 站 ai-zh 中文字幕（5148 行/64k chars）

I. 上帝视角：一场被 OpenCode “点燃”的认知革命

罗福莉做研究的方式与杨植麟相反——杨植麟的稳态来自”问题不可避免”的 Deutsch 信条；罗福莉的爆发来自春节一晚的 OpenCode 体验把她整个世界观炸开。

整场访谈不是有计划的”我的方法论”陈述，而是一个研究者被新范式冲击后的复盘：从 1 月份”我很排斥 OpenCode 这个偏运营导向的产品”，到春节四天后”通通改完，激活我们整个团队”，到春节后两周完成了”以前 30-40 周才能做完的事情”。

对谈真正的张力来自三组对位：

张小珺追问的	罗福莉回应的	真实内核
Open Code 怎么火的	“西夏东阳”（中美对比）+ 效率追求是国人血液	中国国情决定加速度
跟豆包/元宝玩什么游戏	“我反对 DAU 叙事，追求超越自己”	拒绝互联网思维
训模型的挑战	“loss spike + 数值不稳定 + GPU 太阳黑子”	用故障语言表达技术难度
何为 agent	“弥补行动上的缺陷的框架”	反对单一 agent 中心论
你怎么管团队	“其实跟训模型很像——群体智能”	同构化方法论

整场访谈是罗福莉把自己同构成 OpenCode 框架的过程：研究者 = agent + 用 RL 思路 + 群体智能 + 持续自迭代。

II. 12 个核心观点（按对受众的实操价值排序）

Agent 框架是弥补模型行动缺陷的协调层——不是 UI，不是模型，是中间层（memory 系统、message channel、定时/心跳任务、自我更新）
群体智能 » 个人英雄主义：OpenCode 开源社区进化速度超过任何单一团队；让 100 人一起改一个框架，几小时迭代一次
训模型 ≈ 管团队：不同 agent 有独立 context，分工协作；模型团队需要”懂训练 + 懂评估 + 懂数据”的人在 connection 处合作
Multi-agent 当前是伪命题：提升速度和降成本是确定的，但提升任务完成率”上限”还没看到
Agent 时代的卡资源比 = 3 : 1 : 1（研究 : 预训练 : 后训练）—— 后训练已经追上预训练，研究的卡需要更多
去 DAU 叙事：罗福莉明确反对走豆包/元宝/阿里的流量路线，认为追求”何时能超越自己”
Skills 是预训练的补充 alpha：组织内部沉淀的知识无法进训练数据，只能通过 agent 教学
国内 OpenCode 比美国火，是因为效率追求 + 大模型成本低：API 10 元干完 1000 元的事，溢出价值大
去 benchmark 化的窗口期：范式变化时短期内可以”靠体感”判断模型好坏；过了窗口期还是要回到精细评估
1T 模型 = Agent 时代入场券：接近 Claude 4.6 Opus 水平，是 agent 范式的起跑线
Hybrid Attention + MTP 是 agent 时代的结构哲学：MLA 太精细把所有 trade-off 锁死；Hybrid 留富余度让 post-train 调整
现在卡在卡上，不卡在 idea 上：一个 idea 写代码只要一两小时；瓶颈是 GPU 验证速度

III. 思想三层挖掘

【第一层：学科知识 — 罗的思想资源链路】

罗福莉明确提到的思想来源（实操密集型）：

罗明确提到的	出处与影响
OpenCode 的 SKILL 系统	Anthropic 工程团队设计的 agent 框架
隐式 reward 设计 + on-policy 采样	来自 DeepSeek 时期的 RL 训练经验
Muon Optimizer	罗也在用但没像 Kimi 那样自己发明
MLA / Hybrid Attention	DeepSeek V3 用的 MLA vs MiMo-V2 用的 Hybrid Attention 的对比
MTP（Multi-Token Prediction）	DeepSeek 首创但 MiMo-V2 把推理阶段也用上
西夏东阳（”西 OpenAI、东 OpenCode”）	中国 AI 圈的非正式称呼

未提及但其逻辑结构对应的学科：

群体智能/Wisdom of Crowds（Surowiecki 2004）— 罗的核心方法论
复杂适应系统（CAS）（Holland）— Agent 框架 × 模型双向进化
OODA 循环（Boyd）— 春节”4 天迭代” 的速度优势
Distributed Cognition（Hutchins）— 整个团队就是分布式 agent system

关键区分：罗的思想资源完全工程化——她不像杨植麟读 Deutsch，也不像段永平引 Drucker。她的知识全部来自一线训模型的肌肉记忆 + 春节四天 OpenCode 的体验冲击。她的话语方式是”我们做了这个、我们发现那个”，是个实践派而非理论派。

【第二层：方法论 — 5 个可拆解的心智模型】

M1. 框架优先论（Framework-first）

传统认知: 模型决定上限，框架是包装
罗福莉版: 框架弥补模型缺陷 → 中端模型 + 极致框架 ≈ 顶尖模型 + 一般框架

应用：把 MiMo Flash（3B 端侧）接入 OpenCode 后能做出”小模型做不到”的事。

M2. 群体智能进化论

个人改框架: 单线进化（速度慢）
社区改框架: 并行 + 交叉激发（速度 x100）
组织优化: 不同 agent 独立 context + 协作处理同任务

家里实验：让爸爸、妈妈、老公各自开 OpenCode，分别处理委派任务——验证了独立 context 的”专注效果”。

M3. 模型-框架双进化

传统范式: 模型变强 → 框架适配
新范式: 模型↑ ⇄ 框架↑ ⇄ 人↑（三方共同进化）
关键: skills 系统是人→agent 知识传递的标准接口

本质：让 agent 系统具备”学习能力”而不只是”使用能力”。

M4. 卡的资源分配 3:1:1

研究 (3) : 预训练 (1) : 后训练 (1)
研究 = 实验验证 idea + 调参
预训练 / 后训练 = 实际正式训练
关键变化: 1 年前是 5:1（pre-train 主导），现在 1:1（post-train 追平）

含义：研究的卡比正式训练还要多，因为”idea 多但卡少”。

M5. Hybrid 架构哲学（vs MLA 精细化）

MLA: 把所有 trade-off 一次锁死 → 上限高但灵巧性低
Hybrid Attention: 简洁结构 + 留富余度 → 后训练可灵活调整
原则: 当 post-train 周期拉长，前期精细化假设会失效

具体：MiMo-V2 Pro 用 7:1 的 sparse:full attention 比例，加 MTP 利用剩余算力。

【第三层：底层哲学 — 罗的世界观结构】

不硬贴学派标签，从字幕中归纳出5 个核心信念：

信念 1：变化是常态，加速是必然

“我们做两周的事情，我们都不相信是两周内做的”
“我现在处于在这种高度兴奋的状态”
“26 年的主要旋律就是生产力的变革”

信念 2：群体智慧 > 个人天才

反复强调”群体智能”
“agent 的进化需要所有人参与”
自己（被叫”天才少女”她不喜欢）也是群体的一部分

信念 3：超越自己是终极目标

“我们追求的事情是什么时候能够超越自己”
让 AI 替代研究员是积极的（不是恐惧的）
反对 DAU 叙事（流量不能让 AI 超过你）

信念 4：实践高于理论

没有理论引用，全是”我们做了 / 我们发现”
“我我我跟他说了过后，他能把它形成一套非常体系化的东西”
把 OpenCode 装上跑两个小时是认知突变的起点

信念 5：成本/速度是革命的硬约束

“生产力革命必须在意端到端完成率和成本效率”
完成一个任务 1000 美金是失败的
必须有 10x 替代系数比才会被采用

5 个信念合在一起，形成罗的核心哲学公式：

变化常态 × 群体智慧 × 超越自我 × 实践第一 × 成本约束
                          ↓
            "群体智能驱动的 agent + 模型双进化系统"

这与硅谷工程师文化最接近——实用主义 + 速度狂热 + 反 ego。罗福莉是一个纯执行派研究者，没有学派归属。

IV. 思想的内在张力

张力 1：模型即产品 vs 框架即灵魂

杨植麟：”模型训完产品就基本完成”
罗福莉：”框架可以让中端模型表现接近顶尖模型”
如何解决：罗的版本不否认模型重要，但她认为当前阶段框架的边际改善 > 模型的边际改善。Anthropic 之所以强是因为他们模型+框架同时极强

张力 2：群体智能 vs 团队领导

一边强调”反个人英雄主义”
一边自己当 leader 给所有人下指令”24h 内对话 100 轮，否则 quit”
如何解决：罗承认这条指令”我没准备真的考核”——领导是用来强制启动群体智能的，启动后系统自驱动

张力 3：MLA 极致优化 vs Hybrid 留富余度

MLA 的精细化在 chat 时代是最优解
Hybrid 在 agent 时代是最优解
如何解决：Trade-off 在于 post-train 周期。Post-train 长 = 前期假设会过时 = 需要灵活性。这是个时间维度上的判断

张力 4：Multi-agent 当前是伪命题 vs 未来必然

当前 Multi-agent 不提升任务完成率上限
但罗自己又用家庭实验证明 Multi-agent 有效
如何解决：罗说的”提升上限”是指端到端任务完成的智能水平；”家庭实验”只是验证 context 独立性的简易场景。未来可能存在范式让 Multi-agent 真正提升上限

张力 5：开源 vs 商业化

罗强烈支持开源（”我们的安全性焦虑要靠端侧本地推理化解”）
但小米是大商业公司，所有创新最终要变现
如何解决：罗的版本——开源 base model + 部分场景闭源 = 解决”开源换信任 vs 闭源保利润”的平衡

V. 可复制 vs 不可复制

✅ 可复制（高迁移性）

方法	普通人如何用
4 天密集体验定 paradigm	遇到新工具，强制自己 100 轮以上深度使用，再下判断
群体智能改框架	团队内拉一个共享改进的群，定期总结迭代
不同 agent 独立 context	工作时区分场景，不要把所有信息塞一个对话
反 DAU 思维	自己定义”超越自己”的指标，不被外部指标绑架
Skills 系统	把自己重复做的事抽象成 prompt 模板/工作流
用 OpenCode 改 OpenCode	让工具帮你改它自己 — 元层加速

❌ 不可复制（依赖罗的特殊条件）

方法	不可复制的原因
训 1T 模型	需要几千张 GPU 卡 + 几千张研究卡
MiMo Flash/Pro 设计	需要 Hybrid Attention 的 ablation 经验
跨预训练-后训练全链路话语权	罗是小米大模型负责人，普通研究员没这权限
一夜装 OpenCode 后激活全团队	需要团队信任 + 权威基础
跟 DeepSeek 一起做 V3 的经验	不可复制的早期参与红利

⚠️ 部分可复制（需要条件）

方法	复制条件
群体智能进化	需要团队达到一定规模（≥20 人）才能产生显著加速
卡的 3:1:1 分配	适用：研究阶段 > 训练阶段，但需要资源决策权
框架优先论	适用：你能修改框架而不是只用 API

VI. 三种角色的可执行启示

给 AI 研究员/工程师

强制自己深度使用 SOTA agent 框架（如 OpenCode），至少 100 轮对话
把训练问题（loss spike、expert 不均衡）当成工程问题而非”模型问题”
后训练比例至少做到 50/50：当前 1:1 是基线
测自己模型时跑在多个 framework 上（Cursor / OpenCode / Claude Code），观察泛化性

给创业者/CEO

新范式期，强制全员体验新工具（4 天密集使用是临界点）
群体智能比个人天才更重要：建立”大家一起改框架”的协作机制
拒绝跟随 DAU 叙事：找到你自己的”超越自己”指标
能力越级时不要看 benchmark：先靠体感拉开差距，后期再补 evaluation

给个人成长者

每个月强制深度使用一个新工具 / 一个新框架：100 轮以上
把重复工作沉淀成 skill：成为下一代 AI 的训练数据
追求”超越自己”而非”超越别人”：让 AI 替代你的当前能力是好事
不怕被替代：研究员都在被 AI 替代，普通人更要主动迁移到新位置

VII. 分析方法说明 + 局限性

采用 Self-Debate 5 轮迭代：

R1 生成：直接产出 12 观点 + 三层挖掘
R2 逻辑批评：发现的最大问题是”过度浪漫化 OpenCode 体验，可能是叙事化过的事后构造”
R3 受众批评：技术细节对非 AI 从业者价值低（如 MLA vs Hybrid Attention 的对比）
R4 改进：增加”内在张力”章节，明确技术与方法论的分层
R5 评分：完整性 9 / 逻辑 8 / 受众价值 8 = 综合 8.5/10

局限性：

罗的”4 天激活全团队”是英雄主义叙事——可能是事后包装，实际过程未必如此戏剧
B 站 ai-zh 字幕错误较多：”姚顺宇” “尧舜禹” “罗福利” 等人名错（实际是罗福莉），”OpenCode” / “OpenCloud” 错（实际是 OpenCode），”agentic” / “A 卷” / “A 证” / “IJTIC” / “ASIAN” 混淆，影响精确性
技术判断的真伪难以验证：MLA vs Hybrid 的选择是否真的更优，需要长期市场数据
罗的反 DAU 表态可能是策略性叙事：小米是大公司，最终还是要 DAU 变现，她的反对可能是研究侧的立场而非公司战略
整理者非 AI 研究员：技术细节理解可能有偏差，特别是 attention 结构、推理优化等

附录：5 个最高密度瞬间

瞬间 1：春节四天的 OpenCode 体验

“我在有一天深夜去长沙去装了它，然后两个小时撞上了，然后凌晨两点了，然后我第一次跟他对话的时候，从凌晨两点持续到了六点天亮……那一晚上我我觉得我老累的，那个不知道是多巴还是内啡肽，就持续在分泌。”

→ 范式认知突变的具体描述，几乎从未在公司高管访谈中出现

瞬间 2：群体智能改框架

“我下了一一个指令，我就说如果第二天 OpenCode 对话次数不超过 100 轮的人可以直接 quit……其实我的考核方式就是我不会考核，我只希望大家用起来就行了。”

→ 用 KPI 形式强制启动群体智能，但本质不是 KPI 是文化推动

瞬间 3：训模型 ≈ 管团队

“我训模型的方式好像和你管团队的方式有某种相似性？”（张小珺问） “主要的原因是他确实需要群体智能。” “不同的 agent 它需要有自己的 context……当模型能力没有那么强的时候，有自己的独立的 context，它会更专注。”

→ 把组织管理与模型训练同构化的”AHA”瞬间

瞬间 4：反 DAU 叙事

“我自己觉得是什么时候能够超越自己……AGI 发生的时候，所有人都会感知到的……所以在这个过程中追求 DAU、追求这些东西，他并不会促成这个目标。”

→ 对国内大厂主流叙事（豆包/元宝/阿里）的明确反对

瞬间 5：AI 替代研究员

“我之前认为我们自己做的工作已经是足够有创造力，足够不会被 skill 化、不会被 workflow 化的。但我现在发现他竟然也能。然后也就是说可能过一段时间，他真的能训一个跟我们能训出来的模型，它也能训出来了。那他可不可以训出更强的模型呢？然后他就自己左脚踩右脚就提升了。”

→ 一个训过 DeepSeek V3 的人公开承认 AI 即将替代自己，这是这场访谈最震撼的瞬间

罗福莉小米大模型 × 张小珺深度分析：OpenCode、群体智能、Agent 范式

小米大模型负责人、前 DeepSeek 罗福莉对话张小珺（第138期）深度拆解：Agent 是弥补行动缺陷的协调层、群体智能、训模型≈管团队、去 DAU 叙事、卡资源 3:1:1。