⭐ 大模型①：大模型基础

⭐ 核心路径 — 理解基础模型（Foundation Model）的概念、Scaling Laws 如何驱动规模扩展，以及大语言模型涌现出的惊人能力

学习目标

完成本讲后，你应该能够：

定义基础模型（Foundation Model）及其核心特征
解释 Scaling Laws 及其对模型训练策略的影响
列举大语言模型的涌现能力及其触发条件
区分几种主要的预训练目标与数据策略
分析基础模型带来的机遇与风险

一、基础模型：定义与范式转变

概念起源

2021 年，斯坦福 CRFM 的 Bommasani 等人在一篇具有里程碑意义的报告中正式提出了**基础模型（Foundation Model）**的概念：

基础模型 = 在广泛数据上训练、可适应海量下游任务的模型

这个定义包含两个关键要素：

广泛数据（Broad Data）：训练数据覆盖互联网规模的文本、图像、代码等多源信息
可适应（Adaptable）：同一模型通过微调、提示工程等方式服务于截然不同的下游任务

范式转变：从专用到通用

传统 ML 范式是为每个任务训练一个专用模型（任务 A → 模型 A，任务 B → 模型 B）。基础模型开启了新的范式：

传统范式：
  任务 A  →  收集数据 A  →  训练模型 A
  任务 B  →  收集数据 B  →  训练模型 B
  任务 C  →  收集数据 C  →  训练模型 C

基础模型范式：
  海量数据  →  预训练基础模型  →  适配到任务 A/B/C

基础模型的技术基础

基础模型的成功建立在三个技术支柱上：

支柱	关键推动因素	代表工作
架构	[[02-基础/02-03-模型架构	Transformer]] 的自注意力机制提供规模化能力
规模	Scaling Laws 驱动参数和数据量同步扩展	Kaplan et al. (2020)
对齐	[[03-多模态/03-01-连接与对齐	人类反馈微调]]使模型行为和人类期望对齐

为什么是现在？

基础模型在 2020s 初爆发并非偶然——它是三个趋势的交汇：

Transformer 架构的提出解决了序列模型的并行化瓶颈，且随规模增长表现出稳定的性能提升
互联网规模化数据的可获取性大幅提升（Common Crawl 的数万亿 token）
计算资源的持续增长使训练千亿参数模型成为可能（从 BERT-large 的 3.4 亿到 GPT-3 的 1750 亿，再到 PaLM 的 5400 亿）

二、Scaling Laws：规模的力量

核心发现

Kaplan et al. (2020) 在 OpenAI 的 Scaling Laws 论文中做出了一个影响深远的发现：

语言模型的测试损失（test loss）与模型参数、数据量、计算量之间存在光滑的幂律关系。

这可以表示为：

$$L(N, D, C) \propto \max\left(\left(\frac{N_c}{N}\right)^{\alpha_N}, \left(\frac{D_c}{D}\right)^{\alpha_D}, \left(\frac{C_c}{C}\right)^{\alpha_C}\right)$$

其中：

$N$：模型参数量
$D$：训练数据量（tokens）
$C$：计算量（FLOPs）
$\alpha_N, \alpha_D, \alpha_C$：幂律指数（均为较小的正数）

关键含义

无交叉（no crossover）：在合理范围内，更大模型总是更好——不会出现在小规模场景下模型 A 更好、大规模下模型 B 更好的"交叉"现象
可预测扩展：可以从小规模实验（如 1M-100M 参数的外推实验）精确预测大规模训练（如 100B+ 参数）的性能
并行扩展：同时增加模型和数据是效果最大的提升方式——仅增加模型而不增加数据会导致欠拟合

扩展维度的比较

维度	符号	含义	增加的效果	典型成本	最优策略
模型参数	$N$	神经元的数量和连接的密度	提升模型容量和表达能力	增加 GPU 显存需求	与数据同步扩展
训练数据	$D$	训练 tokens 的总量	减少过拟合、增强泛化	增加数据收集和过滤成本	在欠拟合时增加
计算资源	$C$	总的浮点运算量	综合驱动规模扩展	直接对应 GPU 时间开销	最优分配预算
批次大小	$B$	每次更新的样本数	影响训练效率（平方根法则）	适中	线性扩展即可
学习率	$\eta$	优化步长	影响收敛速度	无额外成本	最优值随规模变化很小

Chinchilla 的最优分配

Hoffmann et al. (2022) 对 Kaplan Scaling Laws 提出了重要修正。他们发现在 Kaplan 的实验中，不同规模的模型使用了相同的数据量（300B tokens），导致大模型被严重欠拟合。Chinchilla 法则指出：

在给定计算预算下，模型参数和数据量应等比例扩展。

其关键公式：

$$N_{\text{opt}} \propto C^{0.5}, \quad D_{\text{opt}} \propto C^{0.5}$$

含义：计算预算每增加 10 倍，模型参数和数据量应各增加约 $\sqrt{10} \approx 3.2$ 倍。

实际影响：DeepMind 根据 Chinchilla 法则训练了 70B 参数的 Chinchilla 模型（使用 1.4T tokens），在相同计算预算下效果优于 175B 参数的 GPT-3（仅使用 300B tokens）。这一发现在后续的 LLaMA、Falcon 等模型中得到了广泛采用。

Scaling Laws 的可视化

Loss
  ↑
  │   ╲ 参数不足（欠拟合区）
  │    ╲          ╲ 数据不足（过拟合区）
  │     ╲        ╱
  │      ╲      ╱
  │       ╲    ╱ ← 最优平衡曲线（Chinchilla）
  │        ╲  ╱
  │         ╲╱
  └────────────────────────→ 计算量（log 尺度）

图中展示了语言模型损失随计算量（log 尺度）的典型下降曲线。注意两条边界：

上边界：参数不足（欠拟合），梯度较低
右边界：数据不足（过拟合），曲线开始变平
对角线：最优平衡，计算资源的最高效利用

三、涌现能力：规模催生的质变

什么是涌现？

涌现（Emergence） 指在较小模型中不存在、但在更大模型中突然出现的能力。它不是渐进式提升，而是在某个规模阈值处跳跃式出现的质变。

Wei et al. (2022) 系统分析了 LLM 的涌现能力，并提出了一个关键问题：

涌现是模型真的学会了新能力，还是只是因为现有指标更好地捕捉了这种能力？

三类核心涌现能力

① 上下文学习（In-Context Learning, ICL）

方面	描述
定义	在推理时仅通过输入中的示例（demonstrations）来执行任务，不更新模型参数
例子	输入："将英文翻译为法文：\nhello → bonjour\ngoodbye → au revoir\nthank you → ___"
与微调的区别	ICL 不需要梯度更新，在推理时动态适应——是"在推理时间的学习"
规模依赖	GPT-1 (117M) 无 ICL 能力 → GPT-2 (1.5B) 观察到了微弱的 ICL → GPT-3 (175B) ICL 能力大幅涌现

ICL 的工作机制至今仍然是活跃的研究话题。一种理解是：Transformer 的前向传播可以类比于隐式的梯度下降，注意力机制中的 key-value 交互类似于权重更新。

② 思维链推理（Chain-of-Thought, CoT）

思维链（Wei et al., 2022）通过在提示中展示中间推理步骤来激活 LLM 的推理能力：

标准提示（无 CoT）：
  Q: 罗杰有 5 个球，再买 2 罐网球（每罐 3 个），现在有多少？
  A: 11

CoT 提示：
  Q: 罗杰有 5 个球，再买 2 罐网球（每罐 3 个），现在有多少？
  A: 罗杰开始有 5 个球。2 罐网球每罐 3 个，共 2 × 3 = 6 个。
     5 + 6 = 11。所以答案是 11。

关键发现：

CoT + 大模型 = 飞跃：在 GSM8K 数学推理基准上，CoT 将 PaLM 540B 的准确率从 18% 提升到 58%
CoT + 小模型 = 无效：对小模型（如 T5 11B）使用 CoT 几乎没有提升——CoT 本身就是涌现能力
原理：CoT 将多步推理分解为中间的"思维步骤"，每一步的计算量是 O(1) 但分解后总推理计算量变为 O(n)——这类似于算法中的"展开循环"

③ 指令跟随（Instruction Following）

经过指令微调（Instruction Tuning）后，LLM 能够理解并执行自然语言描述的任务，即使这些任务从未在训练数据中出现过。这产生了**零样本泛化（zero-shot generalization）**能力。

任务 → "将以下句子翻译为法语"
模型 → "Bonjour, comment allez-vous？" ✅

关键：指令跟随能力随着模型规模而涌现，并在 RLHF 对齐后大幅增强。

涌现能力的完整图谱

能力类别	具体能力	涌现的大致规模	代表论文
推理	算术推理（GSM8K）	100B+	CoT (Wei, 2022)
	符号推理（Last Letter）	100B+	CoT (Wei, 2022)
	逻辑推理（ProofWriter）	100B+	多项
知识	事实知识检索	10B+	多项
	跨语言迁移	10B+	PaLM
语言	上下文学习（ICL）	10B-100B	GPT-3 (2020)
	指令跟随	10B+	InstructGPT (2022)
代码	代码生成（HumanEval）	100B+	Codex (2021)
	代码解释	100B+	PaLM
多模态	视觉-语言理解	多模态架构	Flamingo (2022)

四、预训练目标与数据策略

主流预训练目标

目标类型	描述	代表模型	数学形式	特点
自回归语言建模（CLM）	预测下一个 token	GPT 系列、LLaMA、PaLM	$-\sum_{t} \log P(x_t \mid x_{<t})$	从左到右单向注意力，天然支持生成
掩码语言建模（MLM）	预测被掩码的 token	BERT、RoBERTa	$-\sum_{m \in M} \log P(x_m \mid x_{\setminus M})$	双向上下文，适合理解任务
排列语言建模（PLM）	预测随机排列中的下一个 token	XLNet	$-\sum_{t} \log P(x_t \mid x_{z_{<t}})$	结合自回归生成 + 双向上下文
前缀语言建模	前缀双向 + 后缀自回归	T5、GLM	分段的 MLM + CLM	统一理解与生成

预训练数据策略

数据质量和组成对大模型性能的影响不亚于模型架构和规模。

数据来源

目前的 LLM 预训练数据通常来自以下来源：

Common Crawl (60%)  →  过滤（FastText 质量分类器）  →  高质量网页文本
Books (15%)         →  PDF 解析 + 章节分割             →  长篇连贯文本
Wikipedia (10%)     →  页面提取 + 去重                    →  结构化知识
Code (10%)          →  GitHub 爬取                      →  代码语言数据
Others (5%)          →  论文、新闻、论坛等                →  领域专业数据

关键策略

去重（Deduplication）：训练数据中的重复会严重损害模型性能——导致记忆而非泛化。采用 MinHash LSH 等算法对文档级去重
质量过滤（Quality Filtering）：使用分类器（如 FastText 在 Wikipedia + curated 数据上训练）区分"高质量"和"低质量"文本，或使用启发式规则（如困惑度过滤）
数据配比（Data Mixing）：不同来源按不同比例混合（如 LLaMA 的配方：67% 网页 + 15% 书籍 + 4.5% 论文 + 4.5% 代码 + 4.5% 其他）
数据调度（Data Scheduling）：训练过程中动态调整数据配比（如先大量通用数据，后增加高质量数据）
Tokenization：BPE（Byte-Pair Encoding）或 SentencePiece 将文本划分为子词单元，平衡词汇表大小和序列长度

数据策略对能力的影响

数据策略	影响的能力	示例
增加代码数据	推理、逻辑	CodeLLaMA 在数学推理上的提升
增加多语言数据	跨语言泛化	BLOOM 的多语言能力
增加书籍数据	长程依赖、叙事理解	GPT-3 的故事生成能力
课程学习（简单→困难）	训练效率、稳定性	ALiBi 位置编码 + 数据课程

五、机遇与风险

Bommasani et al. (2021) 在系统分析基础模型时，既看到了巨大的机遇也指出了严峻的风险。

机遇

任务统一：一个模型替代数十个专用模型，大幅降低开发和维护成本
迁移学习：预训练获取的广泛知识可以高效迁移到数据稀缺的下游任务
能力涌现：规模扩展不断带来未预期的能力突破
民主化：API 接口使小团队也能利用最先进的模型能力

风险

对齐问题：模型可能产生有害、偏见或虚假的输出
集中化：训练成本将能力集中到少数机构，带来权力集中风险
环境影响：训练大模型的碳排放值得关注
评估困难：涌现能力使得系统性的安全评估变得极其困难

关键概念总结

概念	定义
基础模型（Foundation Model）	在广泛数据上预训练、可适应海量下游任务的模型
Scaling Laws	模型性能与参数/数据/计算之间存在可预测的幂律关系
涌现（Emergence）	在较小模型中不存在、在更大模型中突然出现的能力
上下文学习（ICL）	通过推理时的示例执行任务，不更新参数
思维链（Chain-of-Thought）	通过在提示中展示中间推理步骤激活模型的推理能力
Chinchilla 最优	给定计算预算下，模型参数和数据量应等比例扩展

讨论问题

Scaling Laws 是否意味着"只要规模足够大就能解决一切问题"？有哪些可能的反例？
涌现能力是真实的能力突破还是度量方法的产物？你怎么判断？
ICL 的工作机制是什么？为什么大模型可以"在推理时学习"而小模型不行？
如果计算预算不变，你会优先扩大模型还是增加数据？Chinchilla 法则如何指导这个决策？
基础模型的集中化风险有哪些可能的应对策略？

⭐ 大模型①：大模型基础

学习目标

一、基础模型：定义与范式转变

概念起源

范式转变：从专用到通用

基础模型的技术基础

为什么是现在？

二、Scaling Laws：规模的力量

核心发现

关键含义

扩展维度的比较

Chinchilla 的最优分配

Scaling Laws 的可视化

三、涌现能力：规模催生的质变

什么是涌现？

三类核心涌现能力

① 上下文学习（In-Context Learning, ICL）

② 思维链推理（Chain-of-Thought, CoT）

③ 指令跟随（Instruction Following）

涌现能力的完整图谱

四、预训练目标与数据策略

主流预训练目标

预训练数据策略

数据来源

关键策略

数据策略对能力的影响

五、机遇与风险

机遇

风险

关键概念总结

讨论问题

延伸阅读

相关笔记

⭐ 大模型①：大模型基础 ​

学习目标 ​

一、基础模型：定义与范式转变 ​

概念起源 ​

范式转变：从专用到通用 ​

基础模型的技术基础 ​

为什么是现在？ ​

二、Scaling Laws：规模的力量 ​

核心发现 ​

关键含义 ​

扩展维度的比较 ​

Chinchilla 的最优分配 ​

Scaling Laws 的可视化 ​

三、涌现能力：规模催生的质变 ​

什么是涌现？ ​

三类核心涌现能力 ​

① 上下文学习（In-Context Learning, ICL） ​

② 思维链推理（Chain-of-Thought, CoT） ​

③ 指令跟随（Instruction Following） ​

涌现能力的完整图谱 ​

四、预训练目标与数据策略 ​

主流预训练目标 ​

预训练数据策略 ​

数据来源 ​

关键策略 ​

数据策略对能力的影响 ​

五、机遇与风险 ​

机遇 ​

风险 ​

关键概念总结 ​

讨论问题 ​

延伸阅读 ​

相关笔记 ​

⭐ 大模型①：大模型基础

学习目标

一、基础模型：定义与范式转变

概念起源

范式转变：从专用到通用

基础模型的技术基础

为什么是现在？

二、Scaling Laws：规模的力量

核心发现

关键含义

扩展维度的比较

Chinchilla 的最优分配

Scaling Laws 的可视化

三、涌现能力：规模催生的质变

什么是涌现？

三类核心涌现能力

① 上下文学习（In-Context Learning, ICL）

② 思维链推理（Chain-of-Thought, CoT）

③ 指令跟随（Instruction Following）

涌现能力的完整图谱

四、预训练目标与数据策略

主流预训练目标

预训练数据策略

数据来源

关键策略

数据策略对能力的影响

五、机遇与风险

机遇

风险

关键概念总结

讨论问题

延伸阅读

相关笔记