Skip to content

⭐ 大模型①:大模型基础

核心路径 — 理解基础模型(Foundation Model)的概念、Scaling Laws 如何驱动规模扩展,以及大语言模型涌现出的惊人能力

学习目标

完成本讲后,你应该能够:

  1. 定义 基础模型(Foundation Model)及其核心特征
  2. 解释 Scaling Laws 及其对模型训练策略的影响
  3. 列举 大语言模型的涌现能力及其触发条件
  4. 区分 几种主要的预训练目标与数据策略
  5. 分析 基础模型带来的机遇与风险

一、基础模型:定义与范式转变

概念起源

2021 年,斯坦福 CRFM 的 Bommasani 等人在一篇具有里程碑意义的报告中正式提出了**基础模型(Foundation Model)**的概念:

基础模型 = 在广泛数据上训练、可适应海量下游任务的模型

这个定义包含两个关键要素:

  • 广泛数据(Broad Data):训练数据覆盖互联网规模的文本、图像、代码等多源信息
  • 可适应(Adaptable):同一模型通过微调、提示工程等方式服务于截然不同的下游任务

范式转变:从专用到通用

传统 ML 范式是为每个任务训练一个专用模型(任务 A → 模型 A,任务 B → 模型 B)。基础模型开启了新的范式:

传统范式:
  任务 A  →  收集数据 A  →  训练模型 A
  任务 B  →  收集数据 B  →  训练模型 B
  任务 C  →  收集数据 C  →  训练模型 C

基础模型范式:
  海量数据  →  预训练基础模型  →  适配到任务 A/B/C

基础模型的技术基础

基础模型的成功建立在三个技术支柱上:

支柱关键推动因素代表工作
架构[[02-基础/02-03-模型架构Transformer]] 的自注意力机制提供规模化能力
规模Scaling Laws 驱动参数和数据量同步扩展Kaplan et al. (2020)
对齐[[03-多模态/03-01-连接与对齐人类反馈微调]]使模型行为和人类期望对齐

为什么是现在?

基础模型在 2020s 初爆发并非偶然——它是三个趋势的交汇:

  1. Transformer 架构的提出解决了序列模型的并行化瓶颈,且随规模增长表现出稳定的性能提升
  2. 互联网规模化数据的可获取性大幅提升(Common Crawl 的数万亿 token)
  3. 计算资源的持续增长使训练千亿参数模型成为可能(从 BERT-large 的 3.4 亿到 GPT-3 的 1750 亿,再到 PaLM 的 5400 亿)

二、Scaling Laws:规模的力量

核心发现

Kaplan et al. (2020) 在 OpenAI 的 Scaling Laws 论文中做出了一个影响深远的发现:

语言模型的测试损失(test loss)与模型参数、数据量、计算量之间存在光滑的幂律关系。

这可以表示为:

$$L(N, D, C) \propto \max\left(\left(\frac{N_c}{N}\right)^{\alpha_N}, \left(\frac{D_c}{D}\right)^{\alpha_D}, \left(\frac{C_c}{C}\right)^{\alpha_C}\right)$$

其中:

  • $N$:模型参数量
  • $D$:训练数据量(tokens)
  • $C$:计算量(FLOPs)
  • $\alpha_N, \alpha_D, \alpha_C$:幂律指数(均为较小的正数)

关键含义

  1. 无交叉(no crossover):在合理范围内,更大模型总是更好——不会出现在小规模场景下模型 A 更好、大规模下模型 B 更好的"交叉"现象
  2. 可预测扩展:可以从小规模实验(如 1M-100M 参数的外推实验)精确预测大规模训练(如 100B+ 参数)的性能
  3. 并行扩展:同时增加模型和数据是效果最大的提升方式——仅增加模型而不增加数据会导致欠拟合

扩展维度的比较

维度符号含义增加的效果典型成本最优策略
模型参数$N$神经元的数量和连接的密度提升模型容量和表达能力增加 GPU 显存需求与数据同步扩展
训练数据$D$训练 tokens 的总量减少过拟合、增强泛化增加数据收集和过滤成本在欠拟合时增加
计算资源$C$总的浮点运算量综合驱动规模扩展直接对应 GPU 时间开销最优分配预算
批次大小$B$每次更新的样本数影响训练效率(平方根法则)适中线性扩展即可
学习率$\eta$优化步长影响收敛速度无额外成本最优值随规模变化很小

Chinchilla 的最优分配

Hoffmann et al. (2022) 对 Kaplan Scaling Laws 提出了重要修正。他们发现在 Kaplan 的实验中,不同规模的模型使用了相同的数据量(300B tokens),导致大模型被严重欠拟合。Chinchilla 法则指出:

在给定计算预算下,模型参数和数据量应等比例扩展。

其关键公式:

$$N_{\text{opt}} \propto C^{0.5}, \quad D_{\text{opt}} \propto C^{0.5}$$

含义:计算预算每增加 10 倍,模型参数和数据量应各增加约 $\sqrt{10} \approx 3.2$ 倍。

实际影响:DeepMind 根据 Chinchilla 法则训练了 70B 参数的 Chinchilla 模型(使用 1.4T tokens),在相同计算预算下效果优于 175B 参数的 GPT-3(仅使用 300B tokens)。这一发现在后续的 LLaMA、Falcon 等模型中得到了广泛采用。

Scaling Laws 的可视化

Loss

  │   ╲ 参数不足(欠拟合区)
  │    ╲          ╲ 数据不足(过拟合区)
  │     ╲        ╱
  │      ╲      ╱
  │       ╲    ╱ ← 最优平衡曲线(Chinchilla)
  │        ╲  ╱
  │         ╲╱
  └────────────────────────→ 计算量(log 尺度)

图中展示了语言模型损失随计算量(log 尺度)的典型下降曲线。注意两条边界:

  • 上边界:参数不足(欠拟合),梯度较低
  • 右边界:数据不足(过拟合),曲线开始变平
  • 对角线:最优平衡,计算资源的最高效利用

三、涌现能力:规模催生的质变

什么是涌现?

涌现(Emergence) 指在较小模型中不存在、但在更大模型中突然出现的能力。它不是渐进式提升,而是在某个规模阈值处跳跃式出现的质变。

Wei et al. (2022) 系统分析了 LLM 的涌现能力,并提出了一个关键问题:

涌现是模型真的学会了新能力,还是只是因为现有指标更好地捕捉了这种能力?

三类核心涌现能力

① 上下文学习(In-Context Learning, ICL)

方面描述
定义在推理时仅通过输入中的示例(demonstrations)来执行任务,不更新模型参数
例子输入:"将英文翻译为法文:\nhello → bonjour\ngoodbye → au revoir\nthank you → ___"
与微调的区别ICL 不需要梯度更新,在推理时动态适应——是"在推理时间的学习"
规模依赖GPT-1 (117M) 无 ICL 能力 → GPT-2 (1.5B) 观察到了微弱的 ICL → GPT-3 (175B) ICL 能力大幅涌现

ICL 的工作机制至今仍然是活跃的研究话题。一种理解是:Transformer 的前向传播可以类比于隐式的梯度下降,注意力机制中的 key-value 交互类似于权重更新。

② 思维链推理(Chain-of-Thought, CoT)

思维链(Wei et al., 2022)通过在提示中展示中间推理步骤来激活 LLM 的推理能力:

标准提示(无 CoT):
  Q: 罗杰有 5 个球,再买 2 罐网球(每罐 3 个),现在有多少?
  A: 11

CoT 提示:
  Q: 罗杰有 5 个球,再买 2 罐网球(每罐 3 个),现在有多少?
  A: 罗杰开始有 5 个球。2 罐网球每罐 3 个,共 2 × 3 = 6 个。
     5 + 6 = 11。所以答案是 11。

关键发现:

  • CoT + 大模型 = 飞跃:在 GSM8K 数学推理基准上,CoT 将 PaLM 540B 的准确率从 18% 提升到 58%
  • CoT + 小模型 = 无效:对小模型(如 T5 11B)使用 CoT 几乎没有提升——CoT 本身就是涌现能力
  • 原理:CoT 将多步推理分解为中间的"思维步骤",每一步的计算量是 O(1) 但分解后总推理计算量变为 O(n)——这类似于算法中的"展开循环"

③ 指令跟随(Instruction Following)

经过指令微调(Instruction Tuning)后,LLM 能够理解并执行自然语言描述的任务,即使这些任务从未在训练数据中出现过。这产生了**零样本泛化(zero-shot generalization)**能力。

任务 → "将以下句子翻译为法语"
模型 → "Bonjour, comment allez-vous?" ✅

关键:指令跟随能力随着模型规模而涌现,并在 RLHF 对齐后大幅增强。

涌现能力的完整图谱

能力类别具体能力涌现的大致规模代表论文
推理算术推理(GSM8K)100B+CoT (Wei, 2022)
符号推理(Last Letter)100B+CoT (Wei, 2022)
逻辑推理(ProofWriter)100B+多项
知识事实知识检索10B+多项
跨语言迁移10B+PaLM
语言上下文学习(ICL)10B-100BGPT-3 (2020)
指令跟随10B+InstructGPT (2022)
代码代码生成(HumanEval)100B+Codex (2021)
代码解释100B+PaLM
多模态视觉-语言理解多模态架构Flamingo (2022)

四、预训练目标与数据策略

主流预训练目标

目标类型描述代表模型数学形式特点
自回归语言建模(CLM)预测下一个 tokenGPT 系列、LLaMA、PaLM$-\sum_{t} \log P(x_t \mid x_{<t})$从左到右单向注意力,天然支持生成
掩码语言建模(MLM)预测被掩码的 tokenBERT、RoBERTa$-\sum_{m \in M} \log P(x_m \mid x_{\setminus M})$双向上下文,适合理解任务
排列语言建模(PLM)预测随机排列中的下一个 tokenXLNet$-\sum_{t} \log P(x_t \mid x_{z_{<t}})$结合自回归生成 + 双向上下文
前缀语言建模前缀双向 + 后缀自回归T5、GLM分段的 MLM + CLM统一理解与生成

预训练数据策略

数据质量和组成对大模型性能的影响不亚于模型架构和规模。

数据来源

目前的 LLM 预训练数据通常来自以下来源:

Common Crawl (60%)  →  过滤(FastText 质量分类器)  →  高质量网页文本
Books (15%)         →  PDF 解析 + 章节分割             →  长篇连贯文本
Wikipedia (10%)     →  页面提取 + 去重                    →  结构化知识
Code (10%)          →  GitHub 爬取                      →  代码语言数据
Others (5%)          →  论文、新闻、论坛等                →  领域专业数据

关键策略

  1. 去重(Deduplication):训练数据中的重复会严重损害模型性能——导致记忆而非泛化。采用 MinHash LSH 等算法对文档级去重
  2. 质量过滤(Quality Filtering):使用分类器(如 FastText 在 Wikipedia + curated 数据上训练)区分"高质量"和"低质量"文本,或使用启发式规则(如困惑度过滤)
  3. 数据配比(Data Mixing):不同来源按不同比例混合(如 LLaMA 的配方:67% 网页 + 15% 书籍 + 4.5% 论文 + 4.5% 代码 + 4.5% 其他)
  4. 数据调度(Data Scheduling):训练过程中动态调整数据配比(如先大量通用数据,后增加高质量数据)
  5. Tokenization:BPE(Byte-Pair Encoding)或 SentencePiece 将文本划分为子词单元,平衡词汇表大小和序列长度

数据策略对能力的影响

数据策略影响的能力示例
增加代码数据推理、逻辑CodeLLaMA 在数学推理上的提升
增加多语言数据跨语言泛化BLOOM 的多语言能力
增加书籍数据长程依赖、叙事理解GPT-3 的故事生成能力
课程学习(简单→困难)训练效率、稳定性ALiBi 位置编码 + 数据课程

五、机遇与风险

Bommasani et al. (2021) 在系统分析基础模型时,既看到了巨大的机遇也指出了严峻的风险。

机遇

  • 任务统一:一个模型替代数十个专用模型,大幅降低开发和维护成本
  • 迁移学习:预训练获取的广泛知识可以高效迁移到数据稀缺的下游任务
  • 能力涌现:规模扩展不断带来未预期的能力突破
  • 民主化:API 接口使小团队也能利用最先进的模型能力

风险

  • 对齐问题:模型可能产生有害、偏见或虚假的输出
  • 集中化:训练成本将能力集中到少数机构,带来权力集中风险
  • 环境影响:训练大模型的碳排放值得关注
  • 评估困难:涌现能力使得系统性的安全评估变得极其困难

关键概念总结

概念定义
基础模型(Foundation Model)在广泛数据上预训练、可适应海量下游任务的模型
Scaling Laws模型性能与参数/数据/计算之间存在可预测的幂律关系
涌现(Emergence)在较小模型中不存在、在更大模型中突然出现的能力
上下文学习(ICL)通过推理时的示例执行任务,不更新参数
思维链(Chain-of-Thought)通过在提示中展示中间推理步骤激活模型的推理能力
Chinchilla 最优给定计算预算下,模型参数和数据量应等比例扩展

讨论问题

  1. Scaling Laws 是否意味着"只要规模足够大就能解决一切问题"?有哪些可能的反例?
  2. 涌现能力是真实的能力突破还是度量方法的产物?你怎么判断?
  3. ICL 的工作机制是什么?为什么大模型可以"在推理时学习"而小模型不行?
  4. 如果计算预算不变,你会优先扩大模型还是增加数据?Chinchilla 法则如何指导这个决策?
  5. 基础模型的集中化风险有哪些可能的应对策略?

延伸阅读

相关笔记

  • [[02-基础/02-01-数据与结构|数据与结构]]
  • [[02-基础/02-03-模型架构|模型架构]]
  • [[03-多模态/03-01-连接与对齐|连接与对齐]]
  • [[04-大模型/04-02-多模态大模型|多模态大模型]]
  • [[04-大模型/04-05-本周阅读|第8周阅读]]
  • [[MOC-如何AI一切|🗺️ 返回内容地图]]

基于 MIT MAS.S60 How to AI (Almost) Anything 翻译改编