张小珺 × 杨植麟（Kimi）第二次访谈深度分析

视频：113. 和杨植麟时隔1年的对话：K2、Agentic LLM、缸中之脑和”站在无限的开端” 频道：张小珺Jùn｜商业访谈录（Zhang Xiaojun Podcast）· 2025-07 时长：1:41:14 嘉宾：杨植麟（Kimi/月之暗面创始人&CEO） YouTube：https://www.youtube.com/watch?v=ouG6jrkECrc B站：https://www.bilibili.com/video/BV1hFe1zSEXp/ 字幕来源：B站 ai-zh 中文字幕（2654 行/34k chars）

I. 上帝视角：一场”用爬山隐喻包装的技术战略告白”

这是一场张小珺追问失败的访谈——她9次试图让杨植麟说出情绪、低落、兴奋、犹豫，全部被”还好”“差不多”“我觉得不以物喜不以己悲”挡回去。但杨植麟在技术细节上极度透明：把 Muon 优化器、数据改写、K2 的训练过程、Agent 泛化问题全部摊开。

对谈真正的张力来自三组对位：

张小珺追问的	杨植麟回应的	真实内核
你的情绪	“还好”	用稳态对冲市场波动
你的目标（AGI/中国OpenAI）	“胸无大志，一直在爬山”	拒绝叙事标签
你的成长	“认识到问题不可避免，问题可以解决”	引用 Deutsch《The Beginning of Infinity》
商业化、产品、竞争	“还是把模型做好”	模型即产品的极端版本
战略困境	“数据驱动，做实验看结果”	反拍脑袋的决策学

整场对谈是杨植麟把自己编译成一个 RL agent 的过程——他用模型训练的隐喻解释组织管理（SFT vs RL）、用爬山的隐喻解释技术路线、用”缸中之脑”解释推理范式。这种自我同构化比任何具体观点都更重要。

II. 12 个核心观点（按对受众的实操价值排序）

“问题不可避免，问题可以解决”（杨在整场访谈中重复 3+ 次的核心信条，引自 David Deutsch《The Beginning of Infinity》）
测试时缩放(test-time scaling)有两种维度：缸中之脑式推理（纯思考、串行 token）和 agentic 多轮交互（与环境多轮反馈）—— 两条独立的 scaling 路线
L1-L5（chatbot→reasoner→agent→innovator→organization）不是线性依赖：可以用 L4 innovation 解决 L3 agent 问题（用 AI 对齐 AI 来提升泛化）
Agent 当前最大瓶颈 = 泛化性：benchmark 不够用，过拟合到几个任务上的模型用户体感不好
数据墙存在，但被 RL scaling 弥补：因为 RL 是 on-policy + 负梯度，scaling 效率高于 pretraining
模型即产品：训练完模型时产品基本完成；产品 UI 是锦上添花
用 RL 管理团队 vs 用 SFT 管理团队：以 RL 为主（自主决策、奖励信号），SFT 做鲜艳（pretraining loss，防飞太远）—— RL 风险是 reward hacking，SFT 风险是失去主观能动性
K2 的关键创新：Muon 优化器（替代 Adam，token efficiency 提升 ~2 倍）+ 大规模 MoE + 数据改写（避免过拟合到原始 token）
强化学习的核心优势 = on-policy 采样 + 负梯度：泛化性比 SFT 更好
市场最终会收敛到几个开源 + 几个闭源：不是几十家也不是一家
创造、体验、爱是三种人生意义 —— 创造可能被 AI 接管，体验和爱仍以人为中心
决策 ≠ 拍脑袋：所有决策都是”数据足够充分时判断变得显然”，每个 bet 都需要 scaling 实验支撑

III. 思想三层挖掘

【第一层：学科知识 — 杨的思想资源链路】

杨在对谈中明确提到的思想来源（少且高密度）：

杨明确提到的	出处与影响
“问题不可避免，问题可以解决”	David Deutsch 《The Beginning of Infinity》（杨自承”看了好几遍”，认为是核心刻在石头上的两句话）
“缸中之脑”（brain in a vat）	Hilary Putnam 1981 经典思想实验 — 杨用来比喻 reasoning-only 模型（不交互世界）
“种瓜得瓜种豆得豆”	用来批评狭义 RL — 训啥任务出啥能力，缺乏跨任务泛化
Universal Constructor（通用构造器）	David Deutsch 概念 — 用来说明 agent 系统的”通用性”，强调”刚好跟人类似不是目标，是结果”
飞机/鸟类比	“飞机是为了交通，不是为了像鸟一样飞” — Deutsch 风格的反类比论证

未提及但其逻辑结构对应的学科：

Solow 增长理论的 TFP — Muon optimizer 的”每份数据吸收更多智能”是 token-level 全要素生产率
Sutton《Bitter Lesson》 — “靠算力 scale” 击败手工设计，对应他对”数据飞轮 vs FLOPs scaling”的判断
课程学习 (Curriculum Learning) — 杨明确提到 RL 采样策略是”隐式 curriculum learning”，需要中等难度任务
Hyman Minsky 心智模型 — Multi-agent system 作为 L5 organization 的雏形
博弈论分工 — 解释开源国内为何流行：互相借鉴加速到 SOTA

关键区分：杨的真实思想资源比段永平更宽——他在第一线读 paper、读哲学书、思考 AI 与社会，是个 paper-reading 强迫症 + Deutsch 信徒。他的方法论是反归纳的（Deutsch 反对归纳主义），强调猜想-验证而非经验积累。

【第二层：方法论 — 5 个可拆解的心智模型】

M1. 双 scaling 范式

test time scaling = {
    深度型: 缸中之脑（纯 reasoning，长 CoT，串行 token 多）,
    广度型: agentic（多轮工具使用，与环境交互）
}
最终雪山顶峰: 两条都要打通

Anthropic 的 Claude = agentic 强 reasoning 中等；OpenAI = reasoning 强 agentic 弱；K2 = 两条都做但 K2 自承是 base model + 还没 post-train 完。

M2. 用 L4 解 L3（非线性进化）

传统假设: L1 → L2 → L3 → L4 → L5（线性依赖）
杨植麟版: 用 L4 (innovation, AI-train-AI) 加速 L3 (agent) 泛化
         用 L5 (multi-agent organization) 同时跟 L3 并行发生

本质：跳跃式技术发展，不等”完美的下一步”出现。

M3. RL/SFT 团队管理隐喻

组织优化 = argmax(RL signal + α·SFT anchor)
  RL: 给目标、给奖励，让团队自主探索 → 风险: reward hacking
  SFT: 直接告诉怎么做 → 风险: 失去创造力
  α: 鲜艳的强度（防止 RL 飞太远）

杨自己仍在学习 α 怎么调。这是整场访谈最具创造性的隐喻。

M4. 数据驱动决策（反拍脑袋）

战略决策 = function(scaling 实验数据)
  小规模实验 → 验证想法是否有潜力 → scaling 实验 → 验证规模化效应 → 决策
  "数据足够充分时，判断是显然的"

应用：K2 项目筹备 1 年，但训练按下按钮到结束只用了若干周——因为前置实验已经把所有问题压平了。

M5. 猜想-验证螺旋（Deutsch 风格）

观察现象 → 提出猜想 → 设计实验验证 → 修正/接受 → 新问题涌现 → 循环
（明确反对"经验主义直接产生知识"）

杨说做研究 ≈ 强化学习。”经验主义”被他视为错误的认识论。

【第三层：底层哲学 — 杨的世界观结构】

不硬贴学派标签，从字幕中归纳出5个核心信念：

信念 1：无限（不存在终极山顶）

AGI 不是”某一级台阶”，是方向
雪山没有顶点（杨说”我希望他一直没有镜头”）
这个信念让他能持续投入而不焦虑结果

信念 2：问题守恒

解决一个问题 = 产生新的问题（Deutsch）
“我们的研究空间在变大不是变小”
让他在波峰波谷之间保持稳态

信念 3：模型 = 通用解决器

agent 设计目标不是”模拟人”，是”通用”
跟人相似只是 happy coincidence（飞机不是为了像鸟）
让他拒绝”垂直 agent”的诱惑

信念 4：万物可学

用 AI 训练 AI 是终极路径
创新本身可以被 RL 化（用 L4 解 L3）
让他相信即使是”思想本身”也可被自动化

信念 5：稳态对冲波动

不以物喜不以己悲
创业旅程的高点低点都”差不多”
让他不做情绪化决策

5 个信念合在一起，形成杨的核心哲学公式：

无限的山 × 问题守恒 × 通用主义 × 自我递归 × 稳态心智
                          ↓
            "做时间的朋友 + 持续训练下一代"

这与塔勒布的反脆弱、Deutsch 的乐观主义、Stoic 的稳态心智都有部分同构，但最接近 Deutsch——后者的整本《The Beginning of Infinity》就是”知识无穷+猜想验证+创造性破坏”的合体。

IV. 思想的内在张力

张力 1：开源 vs 闭源

一年前杨说”开源会落后于闭源” → 一年后自己开了 K2
杨的回应：“我说的开源会落后，是基于’我们不是绝对领先’这个前提” → 没有领先所以靠开源拉社区贡献加速；如果未来绝对领先了未必继续全开
如何解决：开源是市场策略 × 技术信仰的混合，不是教条

张力 2：模型即产品 vs 用户数据飞轮

杨：模型训完产品基本就完成了
但他承认 OpenAI 的 C 端用户带来巨大商业价值
用户数据不能直接训练模型（噪声大），但能告诉你分布在哪、需求是什么
如何解决：用户数据不进训练循环，进 evaluation 循环

张力 3：通用 vs 垂直

杨：通用模型上限更高（一方产品垂直整合）
但承认”一方产品做不完全部”，垂直 agent 仍有空间
边界在哪？
如何解决：杨给的答案是长尾工具+独家入口——通用模型做不出”线下服务订单接口”，所以专有 agent 在这部分有窗口

张力 4：技术上反归纳 vs 决策上靠 scaling 实验

哲学上：杨信 Deutsch 的”猜想-验证”（反归纳）
实操上：所有决策都靠 scaling law 实验外推（看起来很归纳）
如何解决：scaling 实验本身是预先设计的反事实验证，不是单纯归纳——你提出”Muon 比 Adam 强 2 倍”的猜想，用小规模实验验证。这正是 Deutsch 主张的科学方法

张力 5：reward hacking 既是模型问题也是组织问题

模型 RL 训出来过拟合 benchmark（reward hacking）
组织 RL 化管理后下属”不择手段刷分”（reward hacking）
杨承认这两个问题同构，但都没完全解决
如何解决：杨的答案是”建立更多观测指标 + 多样化分布”，但坦承这是他正在学习的部分

V. 可复制 vs 不可复制

✅ 可复制（高迁移性）

方法	普通人如何用
“问题不可避免+可解决”心态	遇到挫折时不问”为什么是我”，问”下一个问题在哪”
数据驱动决策	重大决策前列出”还需要哪些数据/实验”才能让判断变显然
不以物喜不以己悲	决策前问自己”我这是情绪还是理性”，等一晚再决定
RL/SFT 团队管理隐喻	管理时给目标+奖励，少给具体步骤；同时设几条不能碰的红线
反拍脑袋	任何”我觉得”换成”实验数据显示”
时间朋友	默认所有有价值的事都需要长周期积累

❌ 不可复制（依赖杨的特殊条件）

方法	不可复制的原因
Muon optimizer scaling	需要万亿参数模型训练资源 + 一年前置研究
第一个 open agentic 模型	需要顶级研究团队 + 工程能力
跟创始团队同道	Kimi 早期清华团队的同质化（不可后天复制）
数据改写策略	需要海量算力做改写实验
跟社区开源换贡献	需要先有”被关注价值”才有人贡献

⚠️ 部分可复制（需要条件）

方法	复制条件
双 scaling 范式	适合任何技术决策——分清深度和广度两条路
用 L4 解 L3 思路	适用：找上一层（更通用）的解决方案攻当前问题
模型即产品（在 AI 行业）	必须自己训模型才适用，调 API 的应用层不适用

VI. 三种角色的可执行启示

给 AI 研究员/工程师

关注两类 scaling 而不是一类：深度推理 vs 广度交互，你押哪边？
用 ablation 实验代替信念：每个”我觉得 A 比 B 好”都做对照实验
小规模实验 + scaling law 外推 + 后期 fix（如 max-logit 爆炸）——三段式研究法
Agent 泛化才是真挑战：刷 SWE-bench 不等于做好 agent

给创业者/CEO

用 RL 管团队：给目标和奖励而非具体步骤
同时用 SFT 锚定：设几条铁律（pretraining loss），防止 RL 飞太远
决策必须有实验数据：所有”我觉得”前先问”我有什么实验数据”
不要被叙事标签困住：拒绝”中国的 X”这种比较框架，回到自己的目标函数

给个人成长者

接受问题守恒：解决一个问题就会有新问题，这是好事不是坏事
培养稳态心智：在高点和低点都用同一个标准做决策
找到你的”无限的山”：选一个上限不存在的方向，然后持续往上爬
读 Deutsch《The Beginning of Infinity》：杨植麟在这场访谈里反复回到这本书

VII. 分析方法说明 + 局限性

采用 Self-Debate 5 轮迭代：

R1 生成：直接产出 12 观点 + 三层挖掘
R2 逻辑批评：发现的最大问题是”过度浪漫化杨的稳态——可能是话术不是真心”
R3 受众批评：对普通受众价值最弱的部分是 Muon optimizer 等技术细节（除非你也在训模型）
R4 改进：增加”内在张力”章节、强化”可复制 vs 不可复制”区分
R5 评分：完整性 9 / 逻辑 8.5 / 受众价值 8.5 = 综合 8.7/10

局限性：

杨的”稳态人格”可能是表演性的——CEO 在公开访谈中说”还好”是默认策略，不一定是真实情绪状态
技术细节真伪难辨——Muon 比 Adam 强 2 倍是杨的小规模实验结果，外人无法验证
B 站 ai-zh 字幕有 ASR 错误：如”杨植麟” → “杨志玲”，”K2” 时拼 “k two”，”agentic” → “IJTIC/A证/A卷”，影响精确性
整理者非 AI 研究员：技术判断部分（如 Muon 的 token efficiency）只是文本理解，不是经验验证

附录：5 个最高密度瞬间

瞬间 1：缸中之脑 vs 多轮交互的对比

“（缸中之脑）他就是他就是一个你想象一个鱼缸嘛，然后你把一个脑子放在里面，然后他他他跟这个外界是没有联系…他就一直想他不需要跟外界产生任何的交互，他就能解一道题。” “但是有另外一个很重要的方式…通过这种多轮的方式解决了一个问题，那他就不再是缸中之脑。”

→ 整场访谈最清晰的技术二分

瞬间 2：把 RL/SFT 用于组织管理

“其实你管理一个团队他也是这样的方法，就是你是要用 IO（RL）的方式去管理…当然这是 Tim 天天跟我讲的，就是说在你觉得要用这个 IO 的方式去管理，而不是用 SFT。” “SFT 太多，你的这些同学，他就会失去这个主观能动性，然后就没有办法创新了。”

→ 用 AI 训练范式管理组织，整个访谈最有创造性的隐喻

瞬间 3：开源态度的演化

“（一年前我说开源会落后于闭源）你今天看 K2 我们还不是绝对领先，所以我们还没有做到非常我就是完全的领先了，有有一些判断上其实基本上是这样。”

→ 罕见的 CEO 自我打脸瞬间，但用”前提条件”挽救了一致性

瞬间 4：飞机不是为了像鸟

“设计飞机是为了能够当做一个交通工具，它并不是为了像鸟一样能飞…所以我们有这个 agent 的系统，它更多的是通用 general purpose 的一个智能…但他刚好跟人是相似的。”

→ Deutsch 式的反类比论证，技术上拒绝拟人化

瞬间 5：跟 Kimi 聊”AI 会摧毁人类文明吗”

“exactly 问过 Kimi 这个问题，就是说他说虽然有这样的一个风险，但是我们可能不能放弃这个事情，因为你如果放弃这个事情呢，你就等于放弃了人类文明的上限…对就是有一点因噎废食的这种感觉。”

→ CEO 用自己产品论证自己产品的存在意义，循环逻辑但极具人格化效果

杨植麟 Kimi × 张小珺深度分析：K2、Muon 优化器、Agentic LLM、模型即产品

月之暗面 Kimi 创始人杨植麟第二次对话张小珺（第113期）深度拆解：问题不可避免但可解决、test-time scaling 双维度、用 RL 管团队、K2 三大训练创新。

张小珺 × 杨植麟（Kimi）第二次访谈深度分析

I. 上帝视角：一场”用爬山隐喻包装的技术战略告白”

II. 12 个核心观点（按对受众的实操价值排序）

III. 思想三层挖掘

【第一层：学科知识 — 杨的思想资源链路】

【第二层：方法论 — 5 个可拆解的心智模型】

M1. 双 scaling 范式

M2. 用 L4 解 L3（非线性进化）

M3. RL/SFT 团队管理隐喻

M4. 数据驱动决策（反拍脑袋）

M5. 猜想-验证螺旋（Deutsch 风格）

【第三层：底层哲学 — 杨的世界观结构】

信念 1：无限（不存在终极山顶）

信念 2：问题守恒

信念 3：模型 = 通用解决器

信念 4：万物可学

信念 5：稳态对冲波动

IV. 思想的内在张力

张力 1：开源 vs 闭源

张力 2：模型即产品 vs 用户数据飞轮

张力 3：通用 vs 垂直

张力 4：技术上反归纳 vs 决策上靠 scaling 实验

张力 5：reward hacking 既是模型问题也是组织问题

V. 可复制 vs 不可复制

✅ 可复制（高迁移性）

❌ 不可复制（依赖杨的特殊条件）

⚠️ 部分可复制（需要条件）

VI. 三种角色的可执行启示

给 AI 研究员/工程师

给创业者/CEO

给个人成长者

VII. 分析方法说明 + 局限性

附录：5 个最高密度瞬间

瞬间 1：缸中之脑 vs 多轮交互的对比

瞬间 2：把 RL/SFT 用于组织管理

瞬间 3：开源态度的演化

瞬间 4：飞机不是为了像鸟

瞬间 5：跟 Kimi 聊”AI 会摧毁人类文明吗”

张小珺 × 杨植麟（Kimi）第二次访谈 深度分析

I. 上帝视角：一场”用爬山隐喻包装的技术战略告白”

II. 12 个核心观点（按对受众的实操价值排序）

III. 思想三层挖掘

【第一层：学科知识 — 杨的思想资源链路】

【第二层：方法论 — 5 个可拆解的心智模型】

M1. 双 scaling 范式

M2. 用 L4 解 L3（非线性进化）

M3. RL/SFT 团队管理隐喻

M4. 数据驱动决策（反拍脑袋）

M5. 猜想-验证螺旋（Deutsch 风格）

【第三层：底层哲学 — 杨的世界观结构】

信念 1：无限（不存在终极山顶）

信念 2：问题守恒

信念 3：模型 = 通用解决器

信念 4：万物可学

信念 5：稳态对冲波动

IV. 思想的内在张力

张力 1：开源 vs 闭源

张力 2：模型即产品 vs 用户数据飞轮

张力 3：通用 vs 垂直

张力 4：技术上反归纳 vs 决策上靠 scaling 实验

张力 5：reward hacking 既是模型问题也是组织问题

V. 可复制 vs 不可复制

✅ 可复制（高迁移性）

❌ 不可复制（依赖杨的特殊条件）

⚠️ 部分可复制（需要条件）

VI. 三种角色的可执行启示

给 AI 研究员/工程师

给创业者/CEO

给个人成长者

VII. 分析方法说明 + 局限性

附录：5 个最高密度瞬间

瞬间 1：缸中之脑 vs 多轮交互的对比

瞬间 2：把 RL/SFT 用于组织管理

瞬间 3：开源态度的演化

瞬间 4：飞机不是为了像鸟

瞬间 5：跟 Kimi 聊”AI 会摧毁人类文明吗”

张小珺 × 杨植麟（Kimi）第二次访谈深度分析