Skip to the content.

张小珺 × 杨植麟(Kimi)第二次访谈 深度分析

视频:113. 和杨植麟时隔1年的对话:K2、Agentic LLM、缸中之脑和”站在无限的开端” 频道:张小珺Jùn|商业访谈录(Zhang Xiaojun Podcast)· 2025-07 时长:1:41:14 嘉宾:杨植麟(Kimi/月之暗面 创始人&CEO) YouTube:https://www.youtube.com/watch?v=ouG6jrkECrc B站:https://www.bilibili.com/video/BV1hFe1zSEXp/ 字幕来源:B站 ai-zh 中文字幕(2654 行/34k chars)


I. 上帝视角:一场”用爬山隐喻包装的技术战略告白”

这是一场张小珺追问失败的访谈——她9次试图让杨植麟说出情绪、低落、兴奋、犹豫,全部被”还好”“差不多”“我觉得不以物喜不以己悲”挡回去。但杨植麟在技术细节上极度透明:把 Muon 优化器、数据改写、K2 的训练过程、Agent 泛化问题全部摊开。

对谈真正的张力来自三组对位

张小珺追问的 杨植麟回应的 真实内核
你的情绪 “还好” 用稳态对冲市场波动
你的目标(AGI/中国OpenAI) “胸无大志,一直在爬山” 拒绝叙事标签
你的成长 “认识到问题不可避免,问题可以解决” 引用 Deutsch《The Beginning of Infinity》
商业化、产品、竞争 “还是把模型做好” 模型即产品的极端版本
战略困境 “数据驱动,做实验看结果” 反拍脑袋的决策学

整场对谈是杨植麟把自己编译成一个 RL agent 的过程——他用模型训练的隐喻解释组织管理(SFT vs RL)、用爬山的隐喻解释技术路线、用”缸中之脑”解释推理范式。这种自我同构化比任何具体观点都更重要。


II. 12 个核心观点(按对受众的实操价值排序)

  1. “问题不可避免,问题可以解决”(杨在整场访谈中重复 3+ 次的核心信条,引自 David Deutsch《The Beginning of Infinity》)
  2. 测试时缩放(test-time scaling)有两种维度:缸中之脑式推理(纯思考、串行 token)和 agentic 多轮交互(与环境多轮反馈)—— 两条独立的 scaling 路线
  3. L1-L5(chatbot→reasoner→agent→innovator→organization)不是线性依赖:可以用 L4 innovation 解决 L3 agent 问题(用 AI 对齐 AI 来提升泛化)
  4. Agent 当前最大瓶颈 = 泛化性:benchmark 不够用,过拟合到几个任务上的模型用户体感不好
  5. 数据墙存在,但被 RL scaling 弥补:因为 RL 是 on-policy + 负梯度,scaling 效率高于 pretraining
  6. 模型即产品:训练完模型时产品基本完成;产品 UI 是锦上添花
  7. 用 RL 管理团队 vs 用 SFT 管理团队:以 RL 为主(自主决策、奖励信号),SFT 做鲜艳(pretraining loss,防飞太远)—— RL 风险是 reward hacking,SFT 风险是失去主观能动性
  8. K2 的关键创新:Muon 优化器(替代 Adam,token efficiency 提升 ~2 倍)+ 大规模 MoE + 数据改写(避免过拟合到原始 token)
  9. 强化学习的核心优势 = on-policy 采样 + 负梯度:泛化性比 SFT 更好
  10. 市场最终会收敛到几个开源 + 几个闭源:不是几十家也不是一家
  11. 创造、体验、爱是三种人生意义 —— 创造可能被 AI 接管,体验和爱仍以人为中心
  12. 决策 ≠ 拍脑袋:所有决策都是”数据足够充分时判断变得显然”,每个 bet 都需要 scaling 实验支撑

III. 思想三层挖掘

【第一层:学科知识 — 杨的思想资源链路】

杨在对谈中明确提到的思想来源(少且高密度):

杨明确提到的 出处与影响
“问题不可避免,问题可以解决” David Deutsch 《The Beginning of Infinity》(杨自承”看了好几遍”,认为是核心刻在石头上的两句话)
“缸中之脑”(brain in a vat) Hilary Putnam 1981 经典思想实验 — 杨用来比喻 reasoning-only 模型(不交互世界)
“种瓜得瓜种豆得豆” 用来批评狭义 RL — 训啥任务出啥能力,缺乏跨任务泛化
Universal Constructor(通用构造器) David Deutsch 概念 — 用来说明 agent 系统的”通用性”,强调”刚好跟人类似不是目标,是结果”
飞机/鸟类比 “飞机是为了交通,不是为了像鸟一样飞” — Deutsch 风格的反类比论证

未提及但其逻辑结构对应的学科

关键区分:杨的真实思想资源比段永平更宽——他在第一线读 paper、读哲学书、思考 AI 与社会,是个 paper-reading 强迫症 + Deutsch 信徒。他的方法论是反归纳的(Deutsch 反对归纳主义),强调猜想-验证而非经验积累。


【第二层:方法论 — 5 个可拆解的心智模型】

M1. 双 scaling 范式

test time scaling = {
    深度型: 缸中之脑(纯 reasoning,长 CoT,串行 token 多),
    广度型: agentic(多轮工具使用,与环境交互)
}
最终雪山顶峰: 两条都要打通

Anthropic 的 Claude = agentic 强 reasoning 中等;OpenAI = reasoning 强 agentic 弱;K2 = 两条都做但 K2 自承是 base model + 还没 post-train 完。

M2. 用 L4 解 L3(非线性进化)

传统假设: L1 → L2 → L3 → L4 → L5(线性依赖)
杨植麟版: 用 L4 (innovation, AI-train-AI) 加速 L3 (agent) 泛化
         用 L5 (multi-agent organization) 同时跟 L3 并行发生

本质:跳跃式技术发展,不等”完美的下一步”出现。

M3. RL/SFT 团队管理隐喻

组织优化 = argmax(RL signal + α·SFT anchor)
  RL: 给目标、给奖励,让团队自主探索 → 风险: reward hacking
  SFT: 直接告诉怎么做 → 风险: 失去创造力
  α: 鲜艳的强度(防止 RL 飞太远)

杨自己仍在学习 α 怎么调。这是整场访谈最具创造性的隐喻。

M4. 数据驱动决策(反拍脑袋)

战略决策 = function(scaling 实验数据)
  小规模实验 → 验证想法是否有潜力 → scaling 实验 → 验证规模化效应 → 决策
  "数据足够充分时,判断是显然的"

应用:K2 项目筹备 1 年,但训练按下按钮到结束只用了若干周——因为前置实验已经把所有问题压平了。

M5. 猜想-验证螺旋(Deutsch 风格)

观察现象 → 提出猜想 → 设计实验验证 → 修正/接受 → 新问题涌现 → 循环
(明确反对"经验主义直接产生知识")

杨说做研究 ≈ 强化学习。”经验主义”被他视为错误的认识论。


【第三层:底层哲学 — 杨的世界观结构】

不硬贴学派标签,从字幕中归纳出5个核心信念

信念 1:无限(不存在终极山顶)

信念 2:问题守恒

信念 3:模型 = 通用解决器

信念 4:万物可学

信念 5:稳态对冲波动

5 个信念合在一起,形成杨的核心哲学公式

无限的山 × 问题守恒 × 通用主义 × 自我递归 × 稳态心智
                          ↓
            "做时间的朋友 + 持续训练下一代"

这与塔勒布的反脆弱、Deutsch 的乐观主义、Stoic 的稳态心智都有部分同构,但最接近 Deutsch——后者的整本《The Beginning of Infinity》就是”知识无穷+猜想验证+创造性破坏”的合体。


IV. 思想的内在张力

张力 1:开源 vs 闭源

张力 2:模型即产品 vs 用户数据飞轮

张力 3:通用 vs 垂直

张力 4:技术上反归纳 vs 决策上靠 scaling 实验

张力 5:reward hacking 既是模型问题也是组织问题


V. 可复制 vs 不可复制

✅ 可复制(高迁移性)

方法 普通人如何用
“问题不可避免+可解决”心态 遇到挫折时不问”为什么是我”,问”下一个问题在哪”
数据驱动决策 重大决策前列出”还需要哪些数据/实验”才能让判断变显然
不以物喜不以己悲 决策前问自己”我这是情绪还是理性”,等一晚再决定
RL/SFT 团队管理隐喻 管理时给目标+奖励,少给具体步骤;同时设几条不能碰的红线
反拍脑袋 任何”我觉得”换成”实验数据显示”
时间朋友 默认所有有价值的事都需要长周期积累

❌ 不可复制(依赖杨的特殊条件)

方法 不可复制的原因
Muon optimizer scaling 需要万亿参数模型训练资源 + 一年前置研究
第一个 open agentic 模型 需要顶级研究团队 + 工程能力
跟创始团队同道 Kimi 早期清华团队的同质化(不可后天复制)
数据改写策略 需要海量算力做改写实验
跟社区开源换贡献 需要先有”被关注价值”才有人贡献

⚠️ 部分可复制(需要条件)

方法 复制条件
双 scaling 范式 适合任何技术决策——分清深度和广度两条路
用 L4 解 L3 思路 适用:找上一层(更通用)的解决方案攻当前问题
模型即产品(在 AI 行业) 必须自己训模型才适用,调 API 的应用层不适用

VI. 三种角色的可执行启示

给 AI 研究员/工程师

  1. 关注两类 scaling 而不是一类:深度推理 vs 广度交互,你押哪边?
  2. 用 ablation 实验代替信念:每个”我觉得 A 比 B 好”都做对照实验
  3. 小规模实验 + scaling law 外推 + 后期 fix(如 max-logit 爆炸)——三段式研究法
  4. Agent 泛化才是真挑战:刷 SWE-bench 不等于做好 agent

给创业者/CEO

  1. 用 RL 管团队:给目标和奖励而非具体步骤
  2. 同时用 SFT 锚定:设几条铁律(pretraining loss),防止 RL 飞太远
  3. 决策必须有实验数据:所有”我觉得”前先问”我有什么实验数据”
  4. 不要被叙事标签困住:拒绝”中国的 X”这种比较框架,回到自己的目标函数

给个人成长者

  1. 接受问题守恒:解决一个问题就会有新问题,这是好事不是坏事
  2. 培养稳态心智:在高点和低点都用同一个标准做决策
  3. 找到你的”无限的山”:选一个上限不存在的方向,然后持续往上爬
  4. 读 Deutsch《The Beginning of Infinity》:杨植麟在这场访谈里反复回到这本书

VII. 分析方法说明 + 局限性

采用 Self-Debate 5 轮迭代

  1. R1 生成:直接产出 12 观点 + 三层挖掘
  2. R2 逻辑批评:发现的最大问题是”过度浪漫化杨的稳态——可能是话术不是真心”
  3. R3 受众批评:对普通受众价值最弱的部分是 Muon optimizer 等技术细节(除非你也在训模型)
  4. R4 改进:增加”内在张力”章节、强化”可复制 vs 不可复制”区分
  5. R5 评分:完整性 9 / 逻辑 8.5 / 受众价值 8.5 = 综合 8.7/10

局限性

  1. 杨的”稳态人格”可能是表演性的——CEO 在公开访谈中说”还好”是默认策略,不一定是真实情绪状态
  2. 技术细节真伪难辨——Muon 比 Adam 强 2 倍是杨的小规模实验结果,外人无法验证
  3. B 站 ai-zh 字幕有 ASR 错误:如”杨植麟” → “杨志玲”,”K2” 时拼 “k two”,”agentic” → “IJTIC/A证/A卷”,影响精确性
  4. 整理者非 AI 研究员:技术判断部分(如 Muon 的 token efficiency)只是文本理解,不是经验验证

附录:5 个最高密度瞬间

瞬间 1:缸中之脑 vs 多轮交互的对比

“(缸中之脑)他就是他就是一个你想象一个鱼缸嘛,然后你把一个脑子放在里面,然后他他他跟这个外界是没有联系…他就一直想他不需要跟外界产生任何的交互,他就能解一道题。” “但是有另外一个很重要的方式…通过这种多轮的方式解决了一个问题,那他就不再是缸中之脑。”

→ 整场访谈最清晰的技术二分

瞬间 2:把 RL/SFT 用于组织管理

“其实你管理一个团队他也是这样的方法,就是你是要用 IO(RL)的方式去管理…当然这是 Tim 天天跟我讲的,就是说在你觉得要用这个 IO 的方式去管理,而不是用 SFT。” “SFT 太多,你的这些同学,他就会失去这个主观能动性,然后就没有办法创新了。”

→ 用 AI 训练范式管理组织,整个访谈最有创造性的隐喻

瞬间 3:开源态度的演化

“(一年前我说开源会落后于闭源)你今天看 K2 我们还不是绝对领先,所以我们还没有做到非常我就是完全的领先了,有有一些判断上其实基本上是这样。”

→ 罕见的 CEO 自我打脸瞬间,但用”前提条件”挽救了一致性

瞬间 4:飞机不是为了像鸟

“设计飞机是为了能够当做一个交通工具,它并不是为了像鸟一样能飞…所以我们有这个 agent 的系统,它更多的是通用 general purpose 的一个智能…但他刚好跟人是相似的。”

→ Deutsch 式的反类比论证,技术上拒绝拟人化

瞬间 5:跟 Kimi 聊”AI 会摧毁人类文明吗”

“exactly 问过 Kimi 这个问题,就是说他说虽然有这样的一个风险,但是我们可能不能放弃这个事情,因为你如果放弃这个事情呢,你就等于放弃了人类文明的上限…对就是有一点因噎废食的这种感觉。”

→ CEO 用自己产品论证自己产品的存在意义,循环逻辑但极具人格化效果