讨论05：大模型系统

🔍 扩展内容 — 本节适合对大模型系统实现有基础了解的学员

讨论主题

大模型的训练和推理系统设计：从单卡训练到分布式训练，从KV Cache到推测解码，大模型系统的关键技术和工程挑战。

PaLM: Scaling Language Modeling with Pathways
- Google, 2022
- https://arxiv.org/abs/2204.02311
- 中文摘要：Google的540B参数大模型，展示了一个模型如何通过Pathways系统在6144个TPU上高效训练。讨论了模型并行、数据并行、流水线并行等分布式策略在大规模训练中的实际应用。
- 讨论：分布式训练中通信瓶颈如何影响scaling效率？
Training Compute-Optimal Large Language Models (Chinchilla)
- DeepMind, 2022
- https://arxiv.org/abs/2203.15556
- 中文摘要：重新审视了scaling laws，提出了compute-optimal training的概念。Chinchilla表明，许多大模型（包括GPT-3）训练得不够充分——模型和数据应该保持一定比例。
- 讨论：计算最优训练对实际成本优化的意义？
Efficient Large-Scale Language Model Training on GPU Clusters Using Megatron-LM
- NVIDIA, 2021
- 中文摘要：NVIDIA的Megatron-LM在大规模GPU集群上的训练系统设计，包括张量并行、流水线并行和数据并行的组合使用。

[[MOC-如何AI一切|🗺️ 返回内容地图]]