⭐ 大模型①:大模型基础
⭐ 核心路径 — 理解基础模型(Foundation Model)的概念、Scaling Laws 如何驱动规模扩展,以及大语言模型涌现出的惊人能力
学习目标
完成本讲后,你应该能够:
- 定义 基础模型(Foundation Model)及其核心特征
- 解释 Scaling Laws 及其对模型训练策略的影响
- 列举 大语言模型的涌现能力及其触发条件
- 区分 几种主要的预训练目标与数据策略
- 分析 基础模型带来的机遇与风险
一、基础模型:定义与范式转变
概念起源
2021 年,斯坦福 CRFM 的 Bommasani 等人在一篇具有里程碑意义的报告中正式提出了**基础模型(Foundation Model)**的概念:
基础模型 = 在广泛数据上训练、可适应海量下游任务的模型
这个定义包含两个关键要素:
- 广泛数据(Broad Data):训练数据覆盖互联网规模的文本、图像、代码等多源信息
- 可适应(Adaptable):同一模型通过微调、提示工程等方式服务于截然不同的下游任务
范式转变:从专用到通用
传统 ML 范式是为每个任务训练一个专用模型(任务 A → 模型 A,任务 B → 模型 B)。基础模型开启了新的范式:
传统范式:
任务 A → 收集数据 A → 训练模型 A
任务 B → 收集数据 B → 训练模型 B
任务 C → 收集数据 C → 训练模型 C
基础模型范式:
海量数据 → 预训练基础模型 → 适配到任务 A/B/C基础模型的技术基础
基础模型的成功建立在三个技术支柱上:
| 支柱 | 关键推动因素 | 代表工作 |
|---|---|---|
| 架构 | [[02-基础/02-03-模型架构 | Transformer]] 的自注意力机制提供规模化能力 |
| 规模 | Scaling Laws 驱动参数和数据量同步扩展 | Kaplan et al. (2020) |
| 对齐 | [[03-多模态/03-01-连接与对齐 | 人类反馈微调]]使模型行为和人类期望对齐 |
为什么是现在?
基础模型在 2020s 初爆发并非偶然——它是三个趋势的交汇:
- Transformer 架构的提出解决了序列模型的并行化瓶颈,且随规模增长表现出稳定的性能提升
- 互联网规模化数据的可获取性大幅提升(Common Crawl 的数万亿 token)
- 计算资源的持续增长使训练千亿参数模型成为可能(从 BERT-large 的 3.4 亿到 GPT-3 的 1750 亿,再到 PaLM 的 5400 亿)
二、Scaling Laws:规模的力量
核心发现
Kaplan et al. (2020) 在 OpenAI 的 Scaling Laws 论文中做出了一个影响深远的发现:
语言模型的测试损失(test loss)与模型参数、数据量、计算量之间存在光滑的幂律关系。
这可以表示为:
$$L(N, D, C) \propto \max\left(\left(\frac{N_c}{N}\right)^{\alpha_N}, \left(\frac{D_c}{D}\right)^{\alpha_D}, \left(\frac{C_c}{C}\right)^{\alpha_C}\right)$$
其中:
- $N$:模型参数量
- $D$:训练数据量(tokens)
- $C$:计算量(FLOPs)
- $\alpha_N, \alpha_D, \alpha_C$:幂律指数(均为较小的正数)
关键含义
- 无交叉(no crossover):在合理范围内,更大模型总是更好——不会出现在小规模场景下模型 A 更好、大规模下模型 B 更好的"交叉"现象
- 可预测扩展:可以从小规模实验(如 1M-100M 参数的外推实验)精确预测大规模训练(如 100B+ 参数)的性能
- 并行扩展:同时增加模型和数据是效果最大的提升方式——仅增加模型而不增加数据会导致欠拟合
扩展维度的比较
| 维度 | 符号 | 含义 | 增加的效果 | 典型成本 | 最优策略 |
|---|---|---|---|---|---|
| 模型参数 | $N$ | 神经元的数量和连接的密度 | 提升模型容量和表达能力 | 增加 GPU 显存需求 | 与数据同步扩展 |
| 训练数据 | $D$ | 训练 tokens 的总量 | 减少过拟合、增强泛化 | 增加数据收集和过滤成本 | 在欠拟合时增加 |
| 计算资源 | $C$ | 总的浮点运算量 | 综合驱动规模扩展 | 直接对应 GPU 时间开销 | 最优分配预算 |
| 批次大小 | $B$ | 每次更新的样本数 | 影响训练效率(平方根法则) | 适中 | 线性扩展即可 |
| 学习率 | $\eta$ | 优化步长 | 影响收敛速度 | 无额外成本 | 最优值随规模变化很小 |
Chinchilla 的最优分配
Hoffmann et al. (2022) 对 Kaplan Scaling Laws 提出了重要修正。他们发现在 Kaplan 的实验中,不同规模的模型使用了相同的数据量(300B tokens),导致大模型被严重欠拟合。Chinchilla 法则指出:
在给定计算预算下,模型参数和数据量应等比例扩展。
其关键公式:
$$N_{\text{opt}} \propto C^{0.5}, \quad D_{\text{opt}} \propto C^{0.5}$$
含义:计算预算每增加 10 倍,模型参数和数据量应各增加约 $\sqrt{10} \approx 3.2$ 倍。
实际影响:DeepMind 根据 Chinchilla 法则训练了 70B 参数的 Chinchilla 模型(使用 1.4T tokens),在相同计算预算下效果优于 175B 参数的 GPT-3(仅使用 300B tokens)。这一发现在后续的 LLaMA、Falcon 等模型中得到了广泛采用。
Scaling Laws 的可视化
Loss
↑
│ ╲ 参数不足(欠拟合区)
│ ╲ ╲ 数据不足(过拟合区)
│ ╲ ╱
│ ╲ ╱
│ ╲ ╱ ← 最优平衡曲线(Chinchilla)
│ ╲ ╱
│ ╲╱
└────────────────────────→ 计算量(log 尺度)图中展示了语言模型损失随计算量(log 尺度)的典型下降曲线。注意两条边界:
- 上边界:参数不足(欠拟合),梯度较低
- 右边界:数据不足(过拟合),曲线开始变平
- 对角线:最优平衡,计算资源的最高效利用
三、涌现能力:规模催生的质变
什么是涌现?
涌现(Emergence) 指在较小模型中不存在、但在更大模型中突然出现的能力。它不是渐进式提升,而是在某个规模阈值处跳跃式出现的质变。
Wei et al. (2022) 系统分析了 LLM 的涌现能力,并提出了一个关键问题:
涌现是模型真的学会了新能力,还是只是因为现有指标更好地捕捉了这种能力?
三类核心涌现能力
① 上下文学习(In-Context Learning, ICL)
| 方面 | 描述 |
|---|---|
| 定义 | 在推理时仅通过输入中的示例(demonstrations)来执行任务,不更新模型参数 |
| 例子 | 输入:"将英文翻译为法文:\nhello → bonjour\ngoodbye → au revoir\nthank you → ___" |
| 与微调的区别 | ICL 不需要梯度更新,在推理时动态适应——是"在推理时间的学习" |
| 规模依赖 | GPT-1 (117M) 无 ICL 能力 → GPT-2 (1.5B) 观察到了微弱的 ICL → GPT-3 (175B) ICL 能力大幅涌现 |
ICL 的工作机制至今仍然是活跃的研究话题。一种理解是:Transformer 的前向传播可以类比于隐式的梯度下降,注意力机制中的 key-value 交互类似于权重更新。
② 思维链推理(Chain-of-Thought, CoT)
思维链(Wei et al., 2022)通过在提示中展示中间推理步骤来激活 LLM 的推理能力:
标准提示(无 CoT):
Q: 罗杰有 5 个球,再买 2 罐网球(每罐 3 个),现在有多少?
A: 11
CoT 提示:
Q: 罗杰有 5 个球,再买 2 罐网球(每罐 3 个),现在有多少?
A: 罗杰开始有 5 个球。2 罐网球每罐 3 个,共 2 × 3 = 6 个。
5 + 6 = 11。所以答案是 11。关键发现:
- CoT + 大模型 = 飞跃:在 GSM8K 数学推理基准上,CoT 将 PaLM 540B 的准确率从 18% 提升到 58%
- CoT + 小模型 = 无效:对小模型(如 T5 11B)使用 CoT 几乎没有提升——CoT 本身就是涌现能力
- 原理:CoT 将多步推理分解为中间的"思维步骤",每一步的计算量是 O(1) 但分解后总推理计算量变为 O(n)——这类似于算法中的"展开循环"
③ 指令跟随(Instruction Following)
经过指令微调(Instruction Tuning)后,LLM 能够理解并执行自然语言描述的任务,即使这些任务从未在训练数据中出现过。这产生了**零样本泛化(zero-shot generalization)**能力。
任务 → "将以下句子翻译为法语"
模型 → "Bonjour, comment allez-vous?" ✅关键:指令跟随能力随着模型规模而涌现,并在 RLHF 对齐后大幅增强。
涌现能力的完整图谱
| 能力类别 | 具体能力 | 涌现的大致规模 | 代表论文 |
|---|---|---|---|
| 推理 | 算术推理(GSM8K) | 100B+ | CoT (Wei, 2022) |
| 符号推理(Last Letter) | 100B+ | CoT (Wei, 2022) | |
| 逻辑推理(ProofWriter) | 100B+ | 多项 | |
| 知识 | 事实知识检索 | 10B+ | 多项 |
| 跨语言迁移 | 10B+ | PaLM | |
| 语言 | 上下文学习(ICL) | 10B-100B | GPT-3 (2020) |
| 指令跟随 | 10B+ | InstructGPT (2022) | |
| 代码 | 代码生成(HumanEval) | 100B+ | Codex (2021) |
| 代码解释 | 100B+ | PaLM | |
| 多模态 | 视觉-语言理解 | 多模态架构 | Flamingo (2022) |
四、预训练目标与数据策略
主流预训练目标
| 目标类型 | 描述 | 代表模型 | 数学形式 | 特点 |
|---|---|---|---|---|
| 自回归语言建模(CLM) | 预测下一个 token | GPT 系列、LLaMA、PaLM | $-\sum_{t} \log P(x_t \mid x_{<t})$ | 从左到右单向注意力,天然支持生成 |
| 掩码语言建模(MLM) | 预测被掩码的 token | BERT、RoBERTa | $-\sum_{m \in M} \log P(x_m \mid x_{\setminus M})$ | 双向上下文,适合理解任务 |
| 排列语言建模(PLM) | 预测随机排列中的下一个 token | XLNet | $-\sum_{t} \log P(x_t \mid x_{z_{<t}})$ | 结合自回归生成 + 双向上下文 |
| 前缀语言建模 | 前缀双向 + 后缀自回归 | T5、GLM | 分段的 MLM + CLM | 统一理解与生成 |
预训练数据策略
数据质量和组成对大模型性能的影响不亚于模型架构和规模。
数据来源
目前的 LLM 预训练数据通常来自以下来源:
Common Crawl (60%) → 过滤(FastText 质量分类器) → 高质量网页文本
Books (15%) → PDF 解析 + 章节分割 → 长篇连贯文本
Wikipedia (10%) → 页面提取 + 去重 → 结构化知识
Code (10%) → GitHub 爬取 → 代码语言数据
Others (5%) → 论文、新闻、论坛等 → 领域专业数据关键策略
- 去重(Deduplication):训练数据中的重复会严重损害模型性能——导致记忆而非泛化。采用 MinHash LSH 等算法对文档级去重
- 质量过滤(Quality Filtering):使用分类器(如 FastText 在 Wikipedia + curated 数据上训练)区分"高质量"和"低质量"文本,或使用启发式规则(如困惑度过滤)
- 数据配比(Data Mixing):不同来源按不同比例混合(如 LLaMA 的配方:67% 网页 + 15% 书籍 + 4.5% 论文 + 4.5% 代码 + 4.5% 其他)
- 数据调度(Data Scheduling):训练过程中动态调整数据配比(如先大量通用数据,后增加高质量数据)
- Tokenization:BPE(Byte-Pair Encoding)或 SentencePiece 将文本划分为子词单元,平衡词汇表大小和序列长度
数据策略对能力的影响
| 数据策略 | 影响的能力 | 示例 |
|---|---|---|
| 增加代码数据 | 推理、逻辑 | CodeLLaMA 在数学推理上的提升 |
| 增加多语言数据 | 跨语言泛化 | BLOOM 的多语言能力 |
| 增加书籍数据 | 长程依赖、叙事理解 | GPT-3 的故事生成能力 |
| 课程学习(简单→困难) | 训练效率、稳定性 | ALiBi 位置编码 + 数据课程 |
五、机遇与风险
Bommasani et al. (2021) 在系统分析基础模型时,既看到了巨大的机遇也指出了严峻的风险。
机遇
- 任务统一:一个模型替代数十个专用模型,大幅降低开发和维护成本
- 迁移学习:预训练获取的广泛知识可以高效迁移到数据稀缺的下游任务
- 能力涌现:规模扩展不断带来未预期的能力突破
- 民主化:API 接口使小团队也能利用最先进的模型能力
风险
- 对齐问题:模型可能产生有害、偏见或虚假的输出
- 集中化:训练成本将能力集中到少数机构,带来权力集中风险
- 环境影响:训练大模型的碳排放值得关注
- 评估困难:涌现能力使得系统性的安全评估变得极其困难
关键概念总结
| 概念 | 定义 |
|---|---|
| 基础模型(Foundation Model) | 在广泛数据上预训练、可适应海量下游任务的模型 |
| Scaling Laws | 模型性能与参数/数据/计算之间存在可预测的幂律关系 |
| 涌现(Emergence) | 在较小模型中不存在、在更大模型中突然出现的能力 |
| 上下文学习(ICL) | 通过推理时的示例执行任务,不更新参数 |
| 思维链(Chain-of-Thought) | 通过在提示中展示中间推理步骤激活模型的推理能力 |
| Chinchilla 最优 | 给定计算预算下,模型参数和数据量应等比例扩展 |
讨论问题
- Scaling Laws 是否意味着"只要规模足够大就能解决一切问题"?有哪些可能的反例?
- 涌现能力是真实的能力突破还是度量方法的产物?你怎么判断?
- ICL 的工作机制是什么?为什么大模型可以"在推理时学习"而小模型不行?
- 如果计算预算不变,你会优先扩大模型还是增加数据?Chinchilla 法则如何指导这个决策?
- 基础模型的集中化风险有哪些可能的应对策略?
延伸阅读
- 必读:On the Opportunities and Risks of Foundation Models — 基础模型概念的发源
- 必读:Scaling Laws for Neural Language Models — 经典 Scaling Laws
- 必读:Emergent Abilities of Large Language Models — 涌现能力系统分析
- 推荐:Training Compute-Optimal Large Language Models (Chinchilla) — 计算最优训练
- 推荐:Chain-of-Thought Prompting Elicits Reasoning — CoT 原始论文
- 扩展:Language Models are Few-Shot Learners (GPT-3) — GPT-3 论文,ICL 的里程碑
相关笔记
- [[02-基础/02-01-数据与结构|数据与结构]]
- [[02-基础/02-03-模型架构|模型架构]]
- [[03-多模态/03-01-连接与对齐|连接与对齐]]
- [[04-大模型/04-02-多模态大模型|多模态大模型]]
- [[04-大模型/04-05-本周阅读|第8周阅读]]
- [[MOC-如何AI一切|🗺️ 返回内容地图]]
