Skip to the content.

张小珺 × 罗福莉(小米大模型)深度分析

视频:138. 对罗福莉3.5小时访谈:AI范式已然巨变!OpenCode、Agent范式很吃Post-train、卡的分配、组织平权 频道:张小珺Jùn|商业访谈录 · 2026 年(春节后) 时长:3:36:36 嘉宾:罗福莉(小米大模型负责人,前 DeepSeek 等团队) YouTube:https://www.youtube.com/watch?v=vG1RBqn1sG4 B 站:https://www.bilibili.com/video/BV1iVoVBgERD/ 字幕来源:B 站 ai-zh 中文字幕(5148 行/64k chars)


I. 上帝视角:一场被 OpenCode “点燃”的认知革命

罗福莉做研究的方式与杨植麟相反——杨植麟的稳态来自”问题不可避免”的 Deutsch 信条;罗福莉的爆发来自春节一晚的 OpenCode 体验把她整个世界观炸开

整场访谈不是有计划的”我的方法论”陈述,而是一个研究者被新范式冲击后的复盘:从 1 月份”我很排斥 OpenCode 这个偏运营导向的产品”,到春节四天后”通通改完,激活我们整个团队”,到春节后两周完成了”以前 30-40 周才能做完的事情”。

对谈真正的张力来自三组对位

张小珺追问的 罗福莉回应的 真实内核
Open Code 怎么火的 “西夏东阳”(中美对比)+ 效率追求是国人血液 中国国情决定加速度
跟豆包/元宝玩什么游戏 “我反对 DAU 叙事,追求超越自己” 拒绝互联网思维
训模型的挑战 “loss spike + 数值不稳定 + GPU 太阳黑子” 用故障语言表达技术难度
何为 agent “弥补行动上的缺陷的框架” 反对单一 agent 中心论
你怎么管团队 “其实跟训模型很像——群体智能” 同构化方法论

整场访谈是罗福莉把自己同构成 OpenCode 框架的过程:研究者 = agent + 用 RL 思路 + 群体智能 + 持续自迭代。


II. 12 个核心观点(按对受众的实操价值排序)

  1. Agent 框架是弥补模型行动缺陷的协调层——不是 UI,不是模型,是中间层(memory 系统、message channel、定时/心跳任务、自我更新)
  2. 群体智能 » 个人英雄主义:OpenCode 开源社区进化速度超过任何单一团队;让 100 人一起改一个框架,几小时迭代一次
  3. 训模型 ≈ 管团队:不同 agent 有独立 context,分工协作;模型团队需要”懂训练 + 懂评估 + 懂数据”的人在 connection 处合作
  4. Multi-agent 当前是伪命题:提升速度和降成本是确定的,但提升任务完成率”上限”还没看到
  5. Agent 时代的卡资源比 = 3 : 1 : 1(研究 : 预训练 : 后训练)—— 后训练已经追上预训练,研究的卡需要更多
  6. 去 DAU 叙事:罗福莉明确反对走豆包/元宝/阿里的流量路线,认为追求”何时能超越自己”
  7. Skills 是预训练的补充 alpha:组织内部沉淀的知识无法进训练数据,只能通过 agent 教学
  8. 国内 OpenCode 比美国火,是因为效率追求 + 大模型成本低:API 10 元干完 1000 元的事,溢出价值大
  9. 去 benchmark 化的窗口期:范式变化时短期内可以”靠体感”判断模型好坏;过了窗口期还是要回到精细评估
  10. 1T 模型 = Agent 时代入场券:接近 Claude 4.6 Opus 水平,是 agent 范式的起跑线
  11. Hybrid Attention + MTP 是 agent 时代的结构哲学:MLA 太精细把所有 trade-off 锁死;Hybrid 留富余度让 post-train 调整
  12. 现在卡在卡上,不卡在 idea 上:一个 idea 写代码只要一两小时;瓶颈是 GPU 验证速度

III. 思想三层挖掘

【第一层:学科知识 — 罗的思想资源链路】

罗福莉明确提到的思想来源(实操密集型):

罗明确提到的 出处与影响
OpenCode 的 SKILL 系统 Anthropic 工程团队设计的 agent 框架
隐式 reward 设计 + on-policy 采样 来自 DeepSeek 时期的 RL 训练经验
Muon Optimizer 罗也在用但没像 Kimi 那样自己发明
MLA / Hybrid Attention DeepSeek V3 用的 MLA vs MiMo-V2 用的 Hybrid Attention 的对比
MTP(Multi-Token Prediction) DeepSeek 首创但 MiMo-V2 把推理阶段也用上
西夏东阳(”西 OpenAI、东 OpenCode”) 中国 AI 圈的非正式称呼

未提及但其逻辑结构对应的学科

关键区分:罗的思想资源完全工程化——她不像杨植麟读 Deutsch,也不像段永平引 Drucker。她的知识全部来自一线训模型的肌肉记忆 + 春节四天 OpenCode 的体验冲击。她的话语方式是”我们做了这个、我们发现那个”,是个实践派而非理论派


【第二层:方法论 — 5 个可拆解的心智模型】

M1. 框架优先论(Framework-first)

传统认知: 模型决定上限,框架是包装
罗福莉版: 框架弥补模型缺陷 → 中端模型 + 极致框架 ≈ 顶尖模型 + 一般框架

应用:把 MiMo Flash(3B 端侧)接入 OpenCode 后能做出”小模型做不到”的事。

M2. 群体智能进化论

个人改框架: 单线进化(速度慢)
社区改框架: 并行 + 交叉激发(速度 x100)
组织优化: 不同 agent 独立 context + 协作处理同任务

家里实验:让爸爸、妈妈、老公各自开 OpenCode,分别处理委派任务——验证了独立 context 的”专注效果”。

M3. 模型-框架双进化

传统范式: 模型变强 → 框架适配
新范式: 模型↑ ⇄ 框架↑ ⇄ 人↑(三方共同进化)
关键: skills 系统是人→agent 知识传递的标准接口

本质:让 agent 系统具备”学习能力”而不只是”使用能力”。

M4. 卡的资源分配 3:1:1

研究 (3) : 预训练 (1) : 后训练 (1)
研究 = 实验验证 idea + 调参
预训练 / 后训练 = 实际正式训练
关键变化: 1 年前是 5:1(pre-train 主导),现在 1:1(post-train 追平)

含义:研究的卡比正式训练还要多,因为”idea 多但卡少”。

M5. Hybrid 架构哲学(vs MLA 精细化)

MLA: 把所有 trade-off 一次锁死 → 上限高但灵巧性低
Hybrid Attention: 简洁结构 + 留富余度 → 后训练可灵活调整
原则: 当 post-train 周期拉长,前期精细化假设会失效

具体:MiMo-V2 Pro 用 7:1 的 sparse:full attention 比例,加 MTP 利用剩余算力。


【第三层:底层哲学 — 罗的世界观结构】

不硬贴学派标签,从字幕中归纳出5 个核心信念

信念 1:变化是常态,加速是必然

信念 2:群体智慧 > 个人天才

信念 3:超越自己是终极目标

信念 4:实践高于理论

信念 5:成本/速度是革命的硬约束

5 个信念合在一起,形成罗的核心哲学公式

变化常态 × 群体智慧 × 超越自我 × 实践第一 × 成本约束
                          ↓
            "群体智能驱动的 agent + 模型双进化系统"

这与硅谷工程师文化最接近——实用主义 + 速度狂热 + 反 ego。罗福莉是一个纯执行派研究者,没有学派归属。


IV. 思想的内在张力

张力 1:模型即产品 vs 框架即灵魂

张力 2:群体智能 vs 团队领导

张力 3:MLA 极致优化 vs Hybrid 留富余度

张力 4:Multi-agent 当前是伪命题 vs 未来必然

张力 5:开源 vs 商业化


V. 可复制 vs 不可复制

✅ 可复制(高迁移性)

方法 普通人如何用
4 天密集体验定 paradigm 遇到新工具,强制自己 100 轮以上深度使用,再下判断
群体智能改框架 团队内拉一个共享改进的群,定期总结迭代
不同 agent 独立 context 工作时区分场景,不要把所有信息塞一个对话
反 DAU 思维 自己定义”超越自己”的指标,不被外部指标绑架
Skills 系统 把自己重复做的事抽象成 prompt 模板/工作流
用 OpenCode 改 OpenCode 让工具帮你改它自己 — 元层加速

❌ 不可复制(依赖罗的特殊条件)

方法 不可复制的原因
训 1T 模型 需要几千张 GPU 卡 + 几千张研究卡
MiMo Flash/Pro 设计 需要 Hybrid Attention 的 ablation 经验
跨预训练-后训练全链路话语权 罗是小米大模型负责人,普通研究员没这权限
一夜装 OpenCode 后激活全团队 需要团队信任 + 权威基础
跟 DeepSeek 一起做 V3 的经验 不可复制的早期参与红利

⚠️ 部分可复制(需要条件)

方法 复制条件
群体智能进化 需要团队达到一定规模(≥20 人)才能产生显著加速
卡的 3:1:1 分配 适用:研究阶段 > 训练阶段,但需要资源决策权
框架优先论 适用:你能修改框架而不是只用 API

VI. 三种角色的可执行启示

给 AI 研究员/工程师

  1. 强制自己深度使用 SOTA agent 框架(如 OpenCode),至少 100 轮对话
  2. 把训练问题(loss spike、expert 不均衡)当成工程问题而非”模型问题”
  3. 后训练比例至少做到 50/50:当前 1:1 是基线
  4. 测自己模型时跑在多个 framework 上(Cursor / OpenCode / Claude Code),观察泛化性

给创业者/CEO

  1. 新范式期,强制全员体验新工具(4 天密集使用是临界点)
  2. 群体智能比个人天才更重要:建立”大家一起改框架”的协作机制
  3. 拒绝跟随 DAU 叙事:找到你自己的”超越自己”指标
  4. 能力越级时不要看 benchmark:先靠体感拉开差距,后期再补 evaluation

给个人成长者

  1. 每个月强制深度使用一个新工具 / 一个新框架:100 轮以上
  2. 把重复工作沉淀成 skill:成为下一代 AI 的训练数据
  3. 追求”超越自己”而非”超越别人”:让 AI 替代你的当前能力是好事
  4. 不怕被替代:研究员都在被 AI 替代,普通人更要主动迁移到新位置

VII. 分析方法说明 + 局限性

采用 Self-Debate 5 轮迭代

  1. R1 生成:直接产出 12 观点 + 三层挖掘
  2. R2 逻辑批评:发现的最大问题是”过度浪漫化 OpenCode 体验,可能是叙事化过的事后构造”
  3. R3 受众批评:技术细节对非 AI 从业者价值低(如 MLA vs Hybrid Attention 的对比)
  4. R4 改进:增加”内在张力”章节,明确技术与方法论的分层
  5. R5 评分:完整性 9 / 逻辑 8 / 受众价值 8 = 综合 8.5/10

局限性

  1. 罗的”4 天激活全团队”是英雄主义叙事——可能是事后包装,实际过程未必如此戏剧
  2. B 站 ai-zh 字幕错误较多:”姚顺宇” “尧舜禹” “罗福利” 等人名错(实际是罗福莉),”OpenCode” / “OpenCloud” 错(实际是 OpenCode),”agentic” / “A 卷” / “A 证” / “IJTIC” / “ASIAN” 混淆,影响精确性
  3. 技术判断的真伪难以验证:MLA vs Hybrid 的选择是否真的更优,需要长期市场数据
  4. 罗的反 DAU 表态可能是策略性叙事:小米是大公司,最终还是要 DAU 变现,她的反对可能是研究侧的立场而非公司战略
  5. 整理者非 AI 研究员:技术细节理解可能有偏差,特别是 attention 结构、推理优化等

附录:5 个最高密度瞬间

瞬间 1:春节四天的 OpenCode 体验

“我在有一天深夜去长沙去装了它,然后两个小时撞上了,然后凌晨两点了,然后我第一次跟他对话的时候,从凌晨两点持续到了六点天亮……那一晚上我我觉得我老累的,那个不知道是多巴还是内啡肽,就持续在分泌。”

→ 范式认知突变的具体描述,几乎从未在公司高管访谈中出现

瞬间 2:群体智能改框架

“我下了一一个指令,我就说如果第二天 OpenCode 对话次数不超过 100 轮的人可以直接 quit……其实我的考核方式就是我不会考核,我只希望大家用起来就行了。”

→ 用 KPI 形式强制启动群体智能,但本质不是 KPI 是文化推动

瞬间 3:训模型 ≈ 管团队

“我训模型的方式好像和你管团队的方式有某种相似性?”(张小珺问) “主要的原因是他确实需要群体智能。” “不同的 agent 它需要有自己的 context……当模型能力没有那么强的时候,有自己的独立的 context,它会更专注。”

→ 把组织管理与模型训练同构化的”AHA”瞬间

瞬间 4:反 DAU 叙事

“我自己觉得是什么时候能够超越自己……AGI 发生的时候,所有人都会感知到的……所以在这个过程中追求 DAU、追求这些东西,他并不会促成这个目标。”

→ 对国内大厂主流叙事(豆包/元宝/阿里)的明确反对

瞬间 5:AI 替代研究员

“我之前认为我们自己做的工作已经是足够有创造力,足够不会被 skill 化、不会被 workflow 化的。但我现在发现他竟然也能。然后也就是说可能过一段时间,他真的能训一个跟我们能训出来的模型,它也能训出来了。那他可不可以训出更强的模型呢?然后他就自己左脚踩右脚就提升了。”

→ 一个训过 DeepSeek V3 的人公开承认 AI 即将替代自己,这是这场访谈最震撼的瞬间