Skip to content

讨论05:大模型系统

🔍 扩展内容 — 本节适合对大模型系统实现有基础了解的学员

讨论主题

大模型的训练和推理系统设计:从单卡训练到分布式训练,从KV Cache到推测解码,大模型系统的关键技术和工程挑战。

阅读材料

  1. PaLM: Scaling Language Modeling with Pathways

    • Google, 2022
    • https://arxiv.org/abs/2204.02311
    • 中文摘要:Google的540B参数大模型,展示了一个模型如何通过Pathways系统在6144个TPU上高效训练。讨论了模型并行、数据并行、流水线并行等分布式策略在大规模训练中的实际应用。
    • 讨论:分布式训练中通信瓶颈如何影响scaling效率?
  2. Training Compute-Optimal Large Language Models (Chinchilla)

    • DeepMind, 2022
    • https://arxiv.org/abs/2203.15556
    • 中文摘要:重新审视了scaling laws,提出了compute-optimal training的概念。Chinchilla表明,许多大模型(包括GPT-3)训练得不够充分——模型和数据应该保持一定比例。
    • 讨论:计算最优训练对实际成本优化的意义?
  3. Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM

    • NVIDIA, 2021
    • 中文摘要:NVIDIA的Megatron-LM在大规模GPU集群上的训练系统设计,包括张量并行、流水线并行和数据并行的组合使用。

核心议题

  • 训练基础设施:3D并行策略的选择与组合
  • 推理优化:KV Cache、推测解码(Speculative Decoding)、量化
  • 大模型的部署成本与优化
  • 开源 vs 闭源模型的系统层面比较

[[MOC-如何AI一切|🗺️ 返回内容地图]]

基于 MIT MAS.S60 How to AI (Almost) Anything 翻译改编