张小珺 × 杨植麟(Kimi)第二次访谈 深度分析
视频:113. 和杨植麟时隔1年的对话:K2、Agentic LLM、缸中之脑和”站在无限的开端” 频道:张小珺Jùn|商业访谈录(Zhang Xiaojun Podcast)· 2025-07 时长:1:41:14 嘉宾:杨植麟(Kimi/月之暗面 创始人&CEO) YouTube:https://www.youtube.com/watch?v=ouG6jrkECrc B站:https://www.bilibili.com/video/BV1hFe1zSEXp/ 字幕来源:B站 ai-zh 中文字幕(2654 行/34k chars)
I. 上帝视角:一场”用爬山隐喻包装的技术战略告白”
这是一场张小珺追问失败的访谈——她9次试图让杨植麟说出情绪、低落、兴奋、犹豫,全部被”还好”“差不多”“我觉得不以物喜不以己悲”挡回去。但杨植麟在技术细节上极度透明:把 Muon 优化器、数据改写、K2 的训练过程、Agent 泛化问题全部摊开。
对谈真正的张力来自三组对位:
| 张小珺追问的 | 杨植麟回应的 | 真实内核 |
|---|---|---|
| 你的情绪 | “还好” | 用稳态对冲市场波动 |
| 你的目标(AGI/中国OpenAI) | “胸无大志,一直在爬山” | 拒绝叙事标签 |
| 你的成长 | “认识到问题不可避免,问题可以解决” | 引用 Deutsch《The Beginning of Infinity》 |
| 商业化、产品、竞争 | “还是把模型做好” | 模型即产品的极端版本 |
| 战略困境 | “数据驱动,做实验看结果” | 反拍脑袋的决策学 |
整场对谈是杨植麟把自己编译成一个 RL agent 的过程——他用模型训练的隐喻解释组织管理(SFT vs RL)、用爬山的隐喻解释技术路线、用”缸中之脑”解释推理范式。这种自我同构化比任何具体观点都更重要。
II. 12 个核心观点(按对受众的实操价值排序)
- “问题不可避免,问题可以解决”(杨在整场访谈中重复 3+ 次的核心信条,引自 David Deutsch《The Beginning of Infinity》)
- 测试时缩放(test-time scaling)有两种维度:缸中之脑式推理(纯思考、串行 token)和 agentic 多轮交互(与环境多轮反馈)—— 两条独立的 scaling 路线
- L1-L5(chatbot→reasoner→agent→innovator→organization)不是线性依赖:可以用 L4 innovation 解决 L3 agent 问题(用 AI 对齐 AI 来提升泛化)
- Agent 当前最大瓶颈 = 泛化性:benchmark 不够用,过拟合到几个任务上的模型用户体感不好
- 数据墙存在,但被 RL scaling 弥补:因为 RL 是 on-policy + 负梯度,scaling 效率高于 pretraining
- 模型即产品:训练完模型时产品基本完成;产品 UI 是锦上添花
- 用 RL 管理团队 vs 用 SFT 管理团队:以 RL 为主(自主决策、奖励信号),SFT 做鲜艳(pretraining loss,防飞太远)—— RL 风险是 reward hacking,SFT 风险是失去主观能动性
- K2 的关键创新:Muon 优化器(替代 Adam,token efficiency 提升 ~2 倍)+ 大规模 MoE + 数据改写(避免过拟合到原始 token)
- 强化学习的核心优势 = on-policy 采样 + 负梯度:泛化性比 SFT 更好
- 市场最终会收敛到几个开源 + 几个闭源:不是几十家也不是一家
- 创造、体验、爱是三种人生意义 —— 创造可能被 AI 接管,体验和爱仍以人为中心
- 决策 ≠ 拍脑袋:所有决策都是”数据足够充分时判断变得显然”,每个 bet 都需要 scaling 实验支撑
III. 思想三层挖掘
【第一层:学科知识 — 杨的思想资源链路】
杨在对谈中明确提到的思想来源(少且高密度):
| 杨明确提到的 | 出处与影响 |
|---|---|
| “问题不可避免,问题可以解决” | David Deutsch 《The Beginning of Infinity》(杨自承”看了好几遍”,认为是核心刻在石头上的两句话) |
| “缸中之脑”(brain in a vat) | Hilary Putnam 1981 经典思想实验 — 杨用来比喻 reasoning-only 模型(不交互世界) |
| “种瓜得瓜种豆得豆” | 用来批评狭义 RL — 训啥任务出啥能力,缺乏跨任务泛化 |
| Universal Constructor(通用构造器) | David Deutsch 概念 — 用来说明 agent 系统的”通用性”,强调”刚好跟人类似不是目标,是结果” |
| 飞机/鸟类比 | “飞机是为了交通,不是为了像鸟一样飞” — Deutsch 风格的反类比论证 |
未提及但其逻辑结构对应的学科:
- Solow 增长理论的 TFP — Muon optimizer 的”每份数据吸收更多智能”是 token-level 全要素生产率
- Sutton《Bitter Lesson》 — “靠算力 scale” 击败手工设计,对应他对”数据飞轮 vs FLOPs scaling”的判断
- 课程学习 (Curriculum Learning) — 杨明确提到 RL 采样策略是”隐式 curriculum learning”,需要中等难度任务
- Hyman Minsky 心智模型 — Multi-agent system 作为 L5 organization 的雏形
- 博弈论分工 — 解释开源国内为何流行:互相借鉴加速到 SOTA
关键区分:杨的真实思想资源比段永平更宽——他在第一线读 paper、读哲学书、思考 AI 与社会,是个 paper-reading 强迫症 + Deutsch 信徒。他的方法论是反归纳的(Deutsch 反对归纳主义),强调猜想-验证而非经验积累。
【第二层:方法论 — 5 个可拆解的心智模型】
M1. 双 scaling 范式
test time scaling = {
深度型: 缸中之脑(纯 reasoning,长 CoT,串行 token 多),
广度型: agentic(多轮工具使用,与环境交互)
}
最终雪山顶峰: 两条都要打通
Anthropic 的 Claude = agentic 强 reasoning 中等;OpenAI = reasoning 强 agentic 弱;K2 = 两条都做但 K2 自承是 base model + 还没 post-train 完。
M2. 用 L4 解 L3(非线性进化)
传统假设: L1 → L2 → L3 → L4 → L5(线性依赖)
杨植麟版: 用 L4 (innovation, AI-train-AI) 加速 L3 (agent) 泛化
用 L5 (multi-agent organization) 同时跟 L3 并行发生
本质:跳跃式技术发展,不等”完美的下一步”出现。
M3. RL/SFT 团队管理隐喻
组织优化 = argmax(RL signal + α·SFT anchor)
RL: 给目标、给奖励,让团队自主探索 → 风险: reward hacking
SFT: 直接告诉怎么做 → 风险: 失去创造力
α: 鲜艳的强度(防止 RL 飞太远)
杨自己仍在学习 α 怎么调。这是整场访谈最具创造性的隐喻。
M4. 数据驱动决策(反拍脑袋)
战略决策 = function(scaling 实验数据)
小规模实验 → 验证想法是否有潜力 → scaling 实验 → 验证规模化效应 → 决策
"数据足够充分时,判断是显然的"
应用:K2 项目筹备 1 年,但训练按下按钮到结束只用了若干周——因为前置实验已经把所有问题压平了。
M5. 猜想-验证螺旋(Deutsch 风格)
观察现象 → 提出猜想 → 设计实验验证 → 修正/接受 → 新问题涌现 → 循环
(明确反对"经验主义直接产生知识")
杨说做研究 ≈ 强化学习。”经验主义”被他视为错误的认识论。
【第三层:底层哲学 — 杨的世界观结构】
不硬贴学派标签,从字幕中归纳出5个核心信念:
信念 1:无限(不存在终极山顶)
- AGI 不是”某一级台阶”,是方向
- 雪山没有顶点(杨说”我希望他一直没有镜头”)
- 这个信念让他能持续投入而不焦虑结果
信念 2:问题守恒
- 解决一个问题 = 产生新的问题(Deutsch)
- “我们的研究空间在变大不是变小”
- 让他在波峰波谷之间保持稳态
信念 3:模型 = 通用解决器
- agent 设计目标不是”模拟人”,是”通用”
- 跟人相似只是 happy coincidence(飞机不是为了像鸟)
- 让他拒绝”垂直 agent”的诱惑
信念 4:万物可学
- 用 AI 训练 AI 是终极路径
- 创新本身可以被 RL 化(用 L4 解 L3)
- 让他相信即使是”思想本身”也可被自动化
信念 5:稳态对冲波动
- 不以物喜不以己悲
- 创业旅程的高点低点都”差不多”
- 让他不做情绪化决策
5 个信念合在一起,形成杨的核心哲学公式:
无限的山 × 问题守恒 × 通用主义 × 自我递归 × 稳态心智
↓
"做时间的朋友 + 持续训练下一代"
这与塔勒布的反脆弱、Deutsch 的乐观主义、Stoic 的稳态心智都有部分同构,但最接近 Deutsch——后者的整本《The Beginning of Infinity》就是”知识无穷+猜想验证+创造性破坏”的合体。
IV. 思想的内在张力
张力 1:开源 vs 闭源
- 一年前杨说”开源会落后于闭源” → 一年后自己开了 K2
- 杨的回应:“我说的开源会落后,是基于’我们不是绝对领先’这个前提” → 没有领先所以靠开源拉社区贡献加速;如果未来绝对领先了未必继续全开
- 如何解决:开源是市场策略 × 技术信仰的混合,不是教条
张力 2:模型即产品 vs 用户数据飞轮
- 杨:模型训完产品基本就完成了
- 但他承认 OpenAI 的 C 端用户带来巨大商业价值
- 用户数据不能直接训练模型(噪声大),但能告诉你分布在哪、需求是什么
- 如何解决:用户数据不进训练循环,进 evaluation 循环
张力 3:通用 vs 垂直
- 杨:通用模型上限更高(一方产品垂直整合)
- 但承认”一方产品做不完全部”,垂直 agent 仍有空间
- 边界在哪?
- 如何解决:杨给的答案是长尾工具+独家入口——通用模型做不出”线下服务订单接口”,所以专有 agent 在这部分有窗口
张力 4:技术上反归纳 vs 决策上靠 scaling 实验
- 哲学上:杨信 Deutsch 的”猜想-验证”(反归纳)
- 实操上:所有决策都靠 scaling law 实验外推(看起来很归纳)
- 如何解决:scaling 实验本身是预先设计的反事实验证,不是单纯归纳——你提出”Muon 比 Adam 强 2 倍”的猜想,用小规模实验验证。这正是 Deutsch 主张的科学方法
张力 5:reward hacking 既是模型问题也是组织问题
- 模型 RL 训出来过拟合 benchmark(reward hacking)
- 组织 RL 化管理后下属”不择手段刷分”(reward hacking)
- 杨承认这两个问题同构,但都没完全解决
- 如何解决:杨的答案是”建立更多观测指标 + 多样化分布”,但坦承这是他正在学习的部分
V. 可复制 vs 不可复制
✅ 可复制(高迁移性)
| 方法 | 普通人如何用 |
|---|---|
| “问题不可避免+可解决”心态 | 遇到挫折时不问”为什么是我”,问”下一个问题在哪” |
| 数据驱动决策 | 重大决策前列出”还需要哪些数据/实验”才能让判断变显然 |
| 不以物喜不以己悲 | 决策前问自己”我这是情绪还是理性”,等一晚再决定 |
| RL/SFT 团队管理隐喻 | 管理时给目标+奖励,少给具体步骤;同时设几条不能碰的红线 |
| 反拍脑袋 | 任何”我觉得”换成”实验数据显示” |
| 时间朋友 | 默认所有有价值的事都需要长周期积累 |
❌ 不可复制(依赖杨的特殊条件)
| 方法 | 不可复制的原因 |
|---|---|
| Muon optimizer scaling | 需要万亿参数模型训练资源 + 一年前置研究 |
| 第一个 open agentic 模型 | 需要顶级研究团队 + 工程能力 |
| 跟创始团队同道 | Kimi 早期清华团队的同质化(不可后天复制) |
| 数据改写策略 | 需要海量算力做改写实验 |
| 跟社区开源换贡献 | 需要先有”被关注价值”才有人贡献 |
⚠️ 部分可复制(需要条件)
| 方法 | 复制条件 |
|---|---|
| 双 scaling 范式 | 适合任何技术决策——分清深度和广度两条路 |
| 用 L4 解 L3 思路 | 适用:找上一层(更通用)的解决方案攻当前问题 |
| 模型即产品(在 AI 行业) | 必须自己训模型才适用,调 API 的应用层不适用 |
VI. 三种角色的可执行启示
给 AI 研究员/工程师
- 关注两类 scaling 而不是一类:深度推理 vs 广度交互,你押哪边?
- 用 ablation 实验代替信念:每个”我觉得 A 比 B 好”都做对照实验
- 小规模实验 + scaling law 外推 + 后期 fix(如 max-logit 爆炸)——三段式研究法
- Agent 泛化才是真挑战:刷 SWE-bench 不等于做好 agent
给创业者/CEO
- 用 RL 管团队:给目标和奖励而非具体步骤
- 同时用 SFT 锚定:设几条铁律(pretraining loss),防止 RL 飞太远
- 决策必须有实验数据:所有”我觉得”前先问”我有什么实验数据”
- 不要被叙事标签困住:拒绝”中国的 X”这种比较框架,回到自己的目标函数
给个人成长者
- 接受问题守恒:解决一个问题就会有新问题,这是好事不是坏事
- 培养稳态心智:在高点和低点都用同一个标准做决策
- 找到你的”无限的山”:选一个上限不存在的方向,然后持续往上爬
- 读 Deutsch《The Beginning of Infinity》:杨植麟在这场访谈里反复回到这本书
VII. 分析方法说明 + 局限性
采用 Self-Debate 5 轮迭代:
- R1 生成:直接产出 12 观点 + 三层挖掘
- R2 逻辑批评:发现的最大问题是”过度浪漫化杨的稳态——可能是话术不是真心”
- R3 受众批评:对普通受众价值最弱的部分是 Muon optimizer 等技术细节(除非你也在训模型)
- R4 改进:增加”内在张力”章节、强化”可复制 vs 不可复制”区分
- R5 评分:完整性 9 / 逻辑 8.5 / 受众价值 8.5 = 综合 8.7/10
局限性:
- 杨的”稳态人格”可能是表演性的——CEO 在公开访谈中说”还好”是默认策略,不一定是真实情绪状态
- 技术细节真伪难辨——Muon 比 Adam 强 2 倍是杨的小规模实验结果,外人无法验证
- B 站 ai-zh 字幕有 ASR 错误:如”杨植麟” → “杨志玲”,”K2” 时拼 “k two”,”agentic” → “IJTIC/A证/A卷”,影响精确性
- 整理者非 AI 研究员:技术判断部分(如 Muon 的 token efficiency)只是文本理解,不是经验验证
附录:5 个最高密度瞬间
瞬间 1:缸中之脑 vs 多轮交互的对比
“(缸中之脑)他就是他就是一个你想象一个鱼缸嘛,然后你把一个脑子放在里面,然后他他他跟这个外界是没有联系…他就一直想他不需要跟外界产生任何的交互,他就能解一道题。” “但是有另外一个很重要的方式…通过这种多轮的方式解决了一个问题,那他就不再是缸中之脑。”
→ 整场访谈最清晰的技术二分
瞬间 2:把 RL/SFT 用于组织管理
“其实你管理一个团队他也是这样的方法,就是你是要用 IO(RL)的方式去管理…当然这是 Tim 天天跟我讲的,就是说在你觉得要用这个 IO 的方式去管理,而不是用 SFT。” “SFT 太多,你的这些同学,他就会失去这个主观能动性,然后就没有办法创新了。”
→ 用 AI 训练范式管理组织,整个访谈最有创造性的隐喻
瞬间 3:开源态度的演化
“(一年前我说开源会落后于闭源)你今天看 K2 我们还不是绝对领先,所以我们还没有做到非常我就是完全的领先了,有有一些判断上其实基本上是这样。”
→ 罕见的 CEO 自我打脸瞬间,但用”前提条件”挽救了一致性
瞬间 4:飞机不是为了像鸟
“设计飞机是为了能够当做一个交通工具,它并不是为了像鸟一样能飞…所以我们有这个 agent 的系统,它更多的是通用 general purpose 的一个智能…但他刚好跟人是相似的。”
→ Deutsch 式的反类比论证,技术上拒绝拟人化
瞬间 5:跟 Kimi 聊”AI 会摧毁人类文明吗”
“exactly 问过 Kimi 这个问题,就是说他说虽然有这样的一个风险,但是我们可能不能放弃这个事情,因为你如果放弃这个事情呢,你就等于放弃了人类文明的上限…对就是有一点因噎废食的这种感觉。”
→ CEO 用自己产品论证自己产品的存在意义,循环逻辑但极具人格化效果