Skip to content

讨论02:现代AI架构

🔍 扩展内容 — 本节适合对模型架构有基础了解的学员

讨论主题

从 Transformer 到多模态混合模型,现代 AI 架构如何演进?规模扩展定律对架构设计有何影响?

阅读材料

  1. Scaling Laws for Generative Mixed-Modal Models

    • arXiv:2301.03728
    • 中文摘要:探索多模态生成模型的扩展定律。类似于语言模型的Scaling Laws,本文发现多模态模型也存在可预测的性能-算力-数据量关系。这为多模态模型的大规模训练提供了理论基础。
    • 讨论:多模态扩展定律与纯语言模型的异同?
  2. Not All Tokens Are What You Need for Pretraining

    • arXiv:2404.07965
    • 中文摘要:发现预训练数据中不同token的学习价值差异巨大,提出了基于token重要性的选择性预训练策略。这挑战了"所有训练数据都是平等的"的默认假设。
  3. The Evolution of Multimodal Model Architectures

    • arXiv:2405.17927
    • 中文摘要:系统梳理了多模态模型架构从早期融合到现代Transformer的演进历程。涵盖架构设计的核心维度和设计空间。
  4. PaLI: A Jointly-Scaled Multilingual Language-Image Model

    • arXiv:2209.06794
    • 中文摘要:Google的多语言视觉语言模型,展示了联合扩展视觉和语言组件的效果。
  5. A ConvNet for the 2020s (ConvNeXt)

    • arXiv:2201.03545
    • 中文摘要:"现代CNN"——将Transformer的设计元素引入CNN架构,证明纯CNN模型经过现代改造后可以达到与Transformer相当的性能。

核心议题

  • Transformer 是架构的终点还是过渡?
  • 扩展定律对实际工程决策的指导意义
  • 混合专家模型(MoE)的前景
  • CNN vs Transformer vs 混合架构:选型依据

[[MOC-如何AI一切|🗺️ 返回内容地图]]

基于 MIT MAS.S60 How to AI (Almost) Anything 翻译改编