讨论02：现代AI架构

🔍 扩展内容 — 本节适合对模型架构有基础了解的学员

讨论主题

从 Transformer 到多模态混合模型，现代 AI 架构如何演进？规模扩展定律对架构设计有何影响？

Scaling Laws for Generative Mixed-Modal Models
- arXiv:2301.03728
- 中文摘要：探索多模态生成模型的扩展定律。类似于语言模型的Scaling Laws，本文发现多模态模型也存在可预测的性能-算力-数据量关系。这为多模态模型的大规模训练提供了理论基础。
- 讨论：多模态扩展定律与纯语言模型的异同？
Not All Tokens Are What You Need for Pretraining
- arXiv:2404.07965
- 中文摘要：发现预训练数据中不同token的学习价值差异巨大，提出了基于token重要性的选择性预训练策略。这挑战了"所有训练数据都是平等的"的默认假设。
The Evolution of Multimodal Model Architectures
- arXiv:2405.17927
- 中文摘要：系统梳理了多模态模型架构从早期融合到现代Transformer的演进历程。涵盖架构设计的核心维度和设计空间。
PaLI: A Jointly-Scaled Multilingual Language-Image Model
- arXiv:2209.06794
- 中文摘要：Google的多语言视觉语言模型，展示了联合扩展视觉和语言组件的效果。
A ConvNet for the 2020s (ConvNeXt)
- arXiv:2201.03545
- 中文摘要："现代CNN"——将Transformer的设计元素引入CNN架构，证明纯CNN模型经过现代改造后可以达到与Transformer相当的性能。

[[MOC-如何AI一切|🗺️ 返回内容地图]]