张小珺 × 罗福莉(小米大模型)深度分析
视频:138. 对罗福莉3.5小时访谈:AI范式已然巨变!OpenCode、Agent范式很吃Post-train、卡的分配、组织平权 频道:张小珺Jùn|商业访谈录 · 2026 年(春节后) 时长:3:36:36 嘉宾:罗福莉(小米大模型负责人,前 DeepSeek 等团队) YouTube:https://www.youtube.com/watch?v=vG1RBqn1sG4 B 站:https://www.bilibili.com/video/BV1iVoVBgERD/ 字幕来源:B 站 ai-zh 中文字幕(5148 行/64k chars)
I. 上帝视角:一场被 OpenCode “点燃”的认知革命
罗福莉做研究的方式与杨植麟相反——杨植麟的稳态来自”问题不可避免”的 Deutsch 信条;罗福莉的爆发来自春节一晚的 OpenCode 体验把她整个世界观炸开。
整场访谈不是有计划的”我的方法论”陈述,而是一个研究者被新范式冲击后的复盘:从 1 月份”我很排斥 OpenCode 这个偏运营导向的产品”,到春节四天后”通通改完,激活我们整个团队”,到春节后两周完成了”以前 30-40 周才能做完的事情”。
对谈真正的张力来自三组对位:
| 张小珺追问的 | 罗福莉回应的 | 真实内核 |
|---|---|---|
| Open Code 怎么火的 | “西夏东阳”(中美对比)+ 效率追求是国人血液 | 中国国情决定加速度 |
| 跟豆包/元宝玩什么游戏 | “我反对 DAU 叙事,追求超越自己” | 拒绝互联网思维 |
| 训模型的挑战 | “loss spike + 数值不稳定 + GPU 太阳黑子” | 用故障语言表达技术难度 |
| 何为 agent | “弥补行动上的缺陷的框架” | 反对单一 agent 中心论 |
| 你怎么管团队 | “其实跟训模型很像——群体智能” | 同构化方法论 |
整场访谈是罗福莉把自己同构成 OpenCode 框架的过程:研究者 = agent + 用 RL 思路 + 群体智能 + 持续自迭代。
II. 12 个核心观点(按对受众的实操价值排序)
- Agent 框架是弥补模型行动缺陷的协调层——不是 UI,不是模型,是中间层(memory 系统、message channel、定时/心跳任务、自我更新)
- 群体智能 » 个人英雄主义:OpenCode 开源社区进化速度超过任何单一团队;让 100 人一起改一个框架,几小时迭代一次
- 训模型 ≈ 管团队:不同 agent 有独立 context,分工协作;模型团队需要”懂训练 + 懂评估 + 懂数据”的人在 connection 处合作
- Multi-agent 当前是伪命题:提升速度和降成本是确定的,但提升任务完成率”上限”还没看到
- Agent 时代的卡资源比 = 3 : 1 : 1(研究 : 预训练 : 后训练)—— 后训练已经追上预训练,研究的卡需要更多
- 去 DAU 叙事:罗福莉明确反对走豆包/元宝/阿里的流量路线,认为追求”何时能超越自己”
- Skills 是预训练的补充 alpha:组织内部沉淀的知识无法进训练数据,只能通过 agent 教学
- 国内 OpenCode 比美国火,是因为效率追求 + 大模型成本低:API 10 元干完 1000 元的事,溢出价值大
- 去 benchmark 化的窗口期:范式变化时短期内可以”靠体感”判断模型好坏;过了窗口期还是要回到精细评估
- 1T 模型 = Agent 时代入场券:接近 Claude 4.6 Opus 水平,是 agent 范式的起跑线
- Hybrid Attention + MTP 是 agent 时代的结构哲学:MLA 太精细把所有 trade-off 锁死;Hybrid 留富余度让 post-train 调整
- 现在卡在卡上,不卡在 idea 上:一个 idea 写代码只要一两小时;瓶颈是 GPU 验证速度
III. 思想三层挖掘
【第一层:学科知识 — 罗的思想资源链路】
罗福莉明确提到的思想来源(实操密集型):
| 罗明确提到的 | 出处与影响 |
|---|---|
| OpenCode 的 SKILL 系统 | Anthropic 工程团队设计的 agent 框架 |
| 隐式 reward 设计 + on-policy 采样 | 来自 DeepSeek 时期的 RL 训练经验 |
| Muon Optimizer | 罗也在用但没像 Kimi 那样自己发明 |
| MLA / Hybrid Attention | DeepSeek V3 用的 MLA vs MiMo-V2 用的 Hybrid Attention 的对比 |
| MTP(Multi-Token Prediction) | DeepSeek 首创但 MiMo-V2 把推理阶段也用上 |
| 西夏东阳(”西 OpenAI、东 OpenCode”) | 中国 AI 圈的非正式称呼 |
未提及但其逻辑结构对应的学科:
- 群体智能/Wisdom of Crowds(Surowiecki 2004)— 罗的核心方法论
- 复杂适应系统(CAS)(Holland)— Agent 框架 × 模型双向进化
- OODA 循环(Boyd)— 春节”4 天迭代” 的速度优势
- Distributed Cognition(Hutchins)— 整个团队就是分布式 agent system
关键区分:罗的思想资源完全工程化——她不像杨植麟读 Deutsch,也不像段永平引 Drucker。她的知识全部来自一线训模型的肌肉记忆 + 春节四天 OpenCode 的体验冲击。她的话语方式是”我们做了这个、我们发现那个”,是个实践派而非理论派。
【第二层:方法论 — 5 个可拆解的心智模型】
M1. 框架优先论(Framework-first)
传统认知: 模型决定上限,框架是包装
罗福莉版: 框架弥补模型缺陷 → 中端模型 + 极致框架 ≈ 顶尖模型 + 一般框架
应用:把 MiMo Flash(3B 端侧)接入 OpenCode 后能做出”小模型做不到”的事。
M2. 群体智能进化论
个人改框架: 单线进化(速度慢)
社区改框架: 并行 + 交叉激发(速度 x100)
组织优化: 不同 agent 独立 context + 协作处理同任务
家里实验:让爸爸、妈妈、老公各自开 OpenCode,分别处理委派任务——验证了独立 context 的”专注效果”。
M3. 模型-框架双进化
传统范式: 模型变强 → 框架适配
新范式: 模型↑ ⇄ 框架↑ ⇄ 人↑(三方共同进化)
关键: skills 系统是人→agent 知识传递的标准接口
本质:让 agent 系统具备”学习能力”而不只是”使用能力”。
M4. 卡的资源分配 3:1:1
研究 (3) : 预训练 (1) : 后训练 (1)
研究 = 实验验证 idea + 调参
预训练 / 后训练 = 实际正式训练
关键变化: 1 年前是 5:1(pre-train 主导),现在 1:1(post-train 追平)
含义:研究的卡比正式训练还要多,因为”idea 多但卡少”。
M5. Hybrid 架构哲学(vs MLA 精细化)
MLA: 把所有 trade-off 一次锁死 → 上限高但灵巧性低
Hybrid Attention: 简洁结构 + 留富余度 → 后训练可灵活调整
原则: 当 post-train 周期拉长,前期精细化假设会失效
具体:MiMo-V2 Pro 用 7:1 的 sparse:full attention 比例,加 MTP 利用剩余算力。
【第三层:底层哲学 — 罗的世界观结构】
不硬贴学派标签,从字幕中归纳出5 个核心信念:
信念 1:变化是常态,加速是必然
- “我们做两周的事情,我们都不相信是两周内做的”
- “我现在处于在这种高度兴奋的状态”
- “26 年的主要旋律就是生产力的变革”
信念 2:群体智慧 > 个人天才
- 反复强调”群体智能”
- “agent 的进化需要所有人参与”
- 自己(被叫”天才少女”她不喜欢)也是群体的一部分
信念 3:超越自己是终极目标
- “我们追求的事情是什么时候能够超越自己”
- 让 AI 替代研究员是积极的(不是恐惧的)
- 反对 DAU 叙事(流量不能让 AI 超过你)
信念 4:实践高于理论
- 没有理论引用,全是”我们做了 / 我们发现”
- “我我我跟他说了过后,他能把它形成一套非常体系化的东西”
- 把 OpenCode 装上跑两个小时是认知突变的起点
信念 5:成本/速度是革命的硬约束
- “生产力革命必须在意端到端完成率和成本效率”
- 完成一个任务 1000 美金是失败的
- 必须有 10x 替代系数比才会被采用
5 个信念合在一起,形成罗的核心哲学公式:
变化常态 × 群体智慧 × 超越自我 × 实践第一 × 成本约束
↓
"群体智能驱动的 agent + 模型双进化系统"
这与硅谷工程师文化最接近——实用主义 + 速度狂热 + 反 ego。罗福莉是一个纯执行派研究者,没有学派归属。
IV. 思想的内在张力
张力 1:模型即产品 vs 框架即灵魂
- 杨植麟:”模型训完产品就基本完成”
- 罗福莉:”框架可以让中端模型表现接近顶尖模型”
- 如何解决:罗的版本不否认模型重要,但她认为当前阶段框架的边际改善 > 模型的边际改善。Anthropic 之所以强是因为他们模型+框架同时极强
张力 2:群体智能 vs 团队领导
- 一边强调”反个人英雄主义”
- 一边自己当 leader 给所有人下指令”24h 内对话 100 轮,否则 quit”
- 如何解决:罗承认这条指令”我没准备真的考核”——领导是用来强制启动群体智能的,启动后系统自驱动
张力 3:MLA 极致优化 vs Hybrid 留富余度
- MLA 的精细化在 chat 时代是最优解
- Hybrid 在 agent 时代是最优解
- 如何解决:Trade-off 在于 post-train 周期。Post-train 长 = 前期假设会过时 = 需要灵活性。这是个时间维度上的判断
张力 4:Multi-agent 当前是伪命题 vs 未来必然
- 当前 Multi-agent 不提升任务完成率上限
- 但罗自己又用家庭实验证明 Multi-agent 有效
- 如何解决:罗说的”提升上限”是指端到端任务完成的智能水平;”家庭实验”只是验证 context 独立性的简易场景。未来可能存在范式让 Multi-agent 真正提升上限
张力 5:开源 vs 商业化
- 罗强烈支持开源(”我们的安全性焦虑要靠端侧本地推理化解”)
- 但小米是大商业公司,所有创新最终要变现
- 如何解决:罗的版本——开源 base model + 部分场景闭源 = 解决”开源换信任 vs 闭源保利润”的平衡
V. 可复制 vs 不可复制
✅ 可复制(高迁移性)
| 方法 | 普通人如何用 |
|---|---|
| 4 天密集体验定 paradigm | 遇到新工具,强制自己 100 轮以上深度使用,再下判断 |
| 群体智能改框架 | 团队内拉一个共享改进的群,定期总结迭代 |
| 不同 agent 独立 context | 工作时区分场景,不要把所有信息塞一个对话 |
| 反 DAU 思维 | 自己定义”超越自己”的指标,不被外部指标绑架 |
| Skills 系统 | 把自己重复做的事抽象成 prompt 模板/工作流 |
| 用 OpenCode 改 OpenCode | 让工具帮你改它自己 — 元层加速 |
❌ 不可复制(依赖罗的特殊条件)
| 方法 | 不可复制的原因 |
|---|---|
| 训 1T 模型 | 需要几千张 GPU 卡 + 几千张研究卡 |
| MiMo Flash/Pro 设计 | 需要 Hybrid Attention 的 ablation 经验 |
| 跨预训练-后训练全链路话语权 | 罗是小米大模型负责人,普通研究员没这权限 |
| 一夜装 OpenCode 后激活全团队 | 需要团队信任 + 权威基础 |
| 跟 DeepSeek 一起做 V3 的经验 | 不可复制的早期参与红利 |
⚠️ 部分可复制(需要条件)
| 方法 | 复制条件 |
|---|---|
| 群体智能进化 | 需要团队达到一定规模(≥20 人)才能产生显著加速 |
| 卡的 3:1:1 分配 | 适用:研究阶段 > 训练阶段,但需要资源决策权 |
| 框架优先论 | 适用:你能修改框架而不是只用 API |
VI. 三种角色的可执行启示
给 AI 研究员/工程师
- 强制自己深度使用 SOTA agent 框架(如 OpenCode),至少 100 轮对话
- 把训练问题(loss spike、expert 不均衡)当成工程问题而非”模型问题”
- 后训练比例至少做到 50/50:当前 1:1 是基线
- 测自己模型时跑在多个 framework 上(Cursor / OpenCode / Claude Code),观察泛化性
给创业者/CEO
- 新范式期,强制全员体验新工具(4 天密集使用是临界点)
- 群体智能比个人天才更重要:建立”大家一起改框架”的协作机制
- 拒绝跟随 DAU 叙事:找到你自己的”超越自己”指标
- 能力越级时不要看 benchmark:先靠体感拉开差距,后期再补 evaluation
给个人成长者
- 每个月强制深度使用一个新工具 / 一个新框架:100 轮以上
- 把重复工作沉淀成 skill:成为下一代 AI 的训练数据
- 追求”超越自己”而非”超越别人”:让 AI 替代你的当前能力是好事
- 不怕被替代:研究员都在被 AI 替代,普通人更要主动迁移到新位置
VII. 分析方法说明 + 局限性
采用 Self-Debate 5 轮迭代:
- R1 生成:直接产出 12 观点 + 三层挖掘
- R2 逻辑批评:发现的最大问题是”过度浪漫化 OpenCode 体验,可能是叙事化过的事后构造”
- R3 受众批评:技术细节对非 AI 从业者价值低(如 MLA vs Hybrid Attention 的对比)
- R4 改进:增加”内在张力”章节,明确技术与方法论的分层
- R5 评分:完整性 9 / 逻辑 8 / 受众价值 8 = 综合 8.5/10
局限性:
- 罗的”4 天激活全团队”是英雄主义叙事——可能是事后包装,实际过程未必如此戏剧
- B 站 ai-zh 字幕错误较多:”姚顺宇” “尧舜禹” “罗福利” 等人名错(实际是罗福莉),”OpenCode” / “OpenCloud” 错(实际是 OpenCode),”agentic” / “A 卷” / “A 证” / “IJTIC” / “ASIAN” 混淆,影响精确性
- 技术判断的真伪难以验证:MLA vs Hybrid 的选择是否真的更优,需要长期市场数据
- 罗的反 DAU 表态可能是策略性叙事:小米是大公司,最终还是要 DAU 变现,她的反对可能是研究侧的立场而非公司战略
- 整理者非 AI 研究员:技术细节理解可能有偏差,特别是 attention 结构、推理优化等
附录:5 个最高密度瞬间
瞬间 1:春节四天的 OpenCode 体验
“我在有一天深夜去长沙去装了它,然后两个小时撞上了,然后凌晨两点了,然后我第一次跟他对话的时候,从凌晨两点持续到了六点天亮……那一晚上我我觉得我老累的,那个不知道是多巴还是内啡肽,就持续在分泌。”
→ 范式认知突变的具体描述,几乎从未在公司高管访谈中出现
瞬间 2:群体智能改框架
“我下了一一个指令,我就说如果第二天 OpenCode 对话次数不超过 100 轮的人可以直接 quit……其实我的考核方式就是我不会考核,我只希望大家用起来就行了。”
→ 用 KPI 形式强制启动群体智能,但本质不是 KPI 是文化推动
瞬间 3:训模型 ≈ 管团队
“我训模型的方式好像和你管团队的方式有某种相似性?”(张小珺问) “主要的原因是他确实需要群体智能。” “不同的 agent 它需要有自己的 context……当模型能力没有那么强的时候,有自己的独立的 context,它会更专注。”
→ 把组织管理与模型训练同构化的”AHA”瞬间
瞬间 4:反 DAU 叙事
“我自己觉得是什么时候能够超越自己……AGI 发生的时候,所有人都会感知到的……所以在这个过程中追求 DAU、追求这些东西,他并不会促成这个目标。”
→ 对国内大厂主流叙事(豆包/元宝/阿里)的明确反对
瞬间 5:AI 替代研究员
“我之前认为我们自己做的工作已经是足够有创造力,足够不会被 skill 化、不会被 workflow 化的。但我现在发现他竟然也能。然后也就是说可能过一段时间,他真的能训一个跟我们能训出来的模型,它也能训出来了。那他可不可以训出更强的模型呢?然后他就自己左脚踩右脚就提升了。”
→ 一个训过 DeepSeek V3 的人公开承认 AI 即将替代自己,这是这场访谈最震撼的瞬间