跳转至

P1-C2 · Transformer 革命 + Scaling Laws

核心一句话

1 篇 8 页论文, 改变了 1 万亿美元产业。

AI 产业知识 — 历史 → 技术 → 产业链 → 商业 → 应用 → 地缘

P1-C2 (Part 1 第 2 章). 学完这一章, 你能说清 2017 Transformer 论文为什么是真转折, 以及 scaling laws 为什么让 hyperscaler 敢砸 $725B/yr capex.


1. 问题: 70 年里"突破"很多, 为什么 2017 这次真不同?

C1 你看完 5 时代 — 4 次寒冬都因为 "技术突破 → 资本涌入 → 兑现不到 → 撤退".

那为什么这次 (2017 Transformer 之后) 不一样? 不能信仰回答, 要技术回答:

  • 1957 Perceptron — 突破, 但算法瓶颈 (单层不能 XOR)
  • 1986 反向传播 — 突破, 但算力瓶颈 (没 GPU)
  • 1997 Deep Blue — 突破, 但只能下棋 (没通用性)
  • 2012 AlexNet — 突破, 但只能感知 (图像分类, 不能生成 / 推理)
  • 2017 Transformer + scaling laws — 第一次通用 + 可预测 scale + 真生成

后面 5 段告诉你 "可预测 scale" 是什么 + 为什么这次资本不会撤退 (短期).


2. 解决方案: Transformer + Scaling Laws — 两个组件结合才有这次革命

组件 论文 关键发现
Transformer "Attention Is All You Need" (Vaswani et al., Google Brain 2017) 抛弃 RNN 顺序处理, 并行 attention 让训练 10x 快
Scaling Laws Kaplan et al. (OpenAI 2020), Chinchilla (DeepMind 2022) loss = 参数 × 数据 × 算力的幂律 — 加资源就涨, 可预测

单独 Transformer 不够 — 它只是更高效的架构. 单独 Scaling Laws 不够 — 没 Transformer 加不动. 两者结合 → 第一次可以"花钱买能力": hyperscaler 看到 $1B → $10B → $100B capex 都能换来对应模型能力提升, 才敢砸 $725B/yr.


3. 工作原理: Attention 直觉 + Scaling Laws 幂律

3.1 Attention 直觉 (vs RNN)

RNN 时代: 读句子像录音带, 1 个词 1 个词顺序读完. 句子长就忘开头 ("长程依赖问题").

Transformer Attention: 读句子像看地图, 同时看所有词 + 算每个词跟其他词的关联度. 任意长度并行处理.

RNN:      word1 → word2 → word3 → ... → 终于读完 (慢, 易忘)
Transformer: [word1, word2, word3, ...] 同时关注 (快, 不忘)

结果: 训练速度 10x+ (能用 GPU 大规模并行). 这才让"大模型"可能.

3.2 Scaling Laws — 这次资本敢砸的原因

Kaplan 2020 论文证明: 模型能力 = f(参数, 数据, 算力) 是幂律关系 — 加资源就涨, 可预测.

GPT-2 (1.5B 参数)  → 写流畅句子
GPT-3 (175B)       → zero-shot 跨任务
GPT-4 (~1.7T 估)   → 跨模态 + 复杂推理
o1/o3 (推理模型)   → 数学/代码超人类

这是历史第一次 "花钱能买到能力" — 而且可预测多少钱能买多少.

这就是 hyperscaler $725B/yr capex 的底层逻辑: scaling laws 没失效之前, 谁 capex 多谁就有更强模型, 谁就赢应用.

3.3 Chinchilla 修正 (2022 DeepMind)

Kaplan 论文有 bug — 它过度强调参数, 忽视数据.

Chinchilla 发现: 数据要跟参数同比放大才最优. GPT-3 175B 参数其实数据不够, "训练欠拟合".

→ 这就是为什么 2023+ 大家疯狂囤数据 (Reddit / Twitter / 出版商授权), 数据已成稀缺资源.


4. vs C1 你已经会的

维度 C1 给你 C2 多给你
时间 5 时代 70 年历史轴 2017 那个点 zoom in
解释 "为什么 4 次寒冬" "为什么这次可能不一样" 的技术回答
投资意义 不能默认相信 知道 5 项 hold = 不寒冬, scaling laws hold 是最关键 1 项

C1 = 故事. C2 = 技术回答. 没 C2 你不知道这次为什么可能不寒冬 — 只能信仰.


5. 试一下: 估算 scaling 跳跃 + 推理模型新维度

任务 1 (10 分钟):

GPT-2 → GPT-3: 参数 1.5B → 175B = 117x. 能力跳跃: 写句子 → zero-shot 跨任务
GPT-3 → GPT-4: 参数估 175B → 1.7T = 10x. 能力跳跃: zero-shot → 复杂推理 / 跨模态

问: GPT-4 → GPT-5 (假设 17T) 你预期能力跳跃是什么?

任务 2 (5 分钟):

OpenAI o1 blog post 第一段. → 推理模型用"测试时计算" (inference compute) 换能力. 这是scaling laws 第 2 条曲线 — 不只训练能 scale, 推理也能.

Self-check (3 项符合则进 P1-C3):

  • 你能 1 句话解释为什么 Transformer 比 RNN 快
  • 你能解释 Chinchilla 修正为什么让数据成稀缺资源
  • 你能说出 "推理模型 scaling" 跟 "训练 scaling" 是 2 条独立曲线

6. 接下来

Transformer + scaling laws 让 LLM 可能. 但为什么是 NVDA 占位, 不是 Intel / AMD / Google?

2017 论文是 Google 写的, GPU 是 NVDA 卖的, Intel 当时还是芯片王者. 为什么 9 年后是 NVDA $3T 市值?

→ P1-C3 · 为什么 NVDA 不是 Intel 解释 20 年 CUDA + Jensen 平台战略 vs Intel 利润保护。


7. 深入 (optional): RLHF / 推理模型 / 数据墙 risk

点开看 LLM 第 4 + 5 维 scaling

scaling 第 1 维: 参数 (Kaplan 2020) — GPT-3, GPT-4 scaling 第 2 维: 数据 (Chinchilla 2022) — 大家疯狂囤数据 scaling 第 3 维: 后训练 RLHF (Anthropic Constitutional AI + OpenAI InstructGPT) — 让模型 "听话" scaling 第 4 维: 推理 compute (o1/o3) — 不动模型, 思考时间换能力 scaling 第 5 维: agentic loop (Claude Code / browser use) — 模型自己跑工具

数据墙 risk (2025+ 重要): 人类有质量文本估 ~40T tokens. GPT-4 训练用 ~13T. 按 Chinchilla 比例, GPT-6 需要 ~100T+ tokens — 不够了.

→ 解决方案: (a) 合成数据 (b) 视频 / 多模态 © 真实世界 robotics 数据. → AI 寒冬 wildcard: 如果合成数据训出来模型质量下降 (model collapse), scaling 第 2 条曲线断了, 投资 thesis 大变.