Skip to content

讨论03:多模态对齐

🔍 扩展内容 — 本节适合对多模态已有基本了解的学员

讨论主题

不同模态的表示是否在趋同?"柏拉图式表示假说"在多大程度上成立?对比学习和对齐方法的原理与局限。

阅读材料

  1. The Platonic Representation Hypothesis

    • arXiv:2405.07987
    • 中文摘要:提出"柏拉图式表示假说"——不同模型(即使在不同模态上训练)的表示空间正在收敛到同一个共享抽象空间。如果这一假说成立,意味着存在一个独立于模态的"理想表示"。本文给出了初步的理论和实验证据。
    • 讨论:表示收敛的极限是什么?这与多模态对齐有何关系?
  2. Understanding the Emergence of Multimodal Representation Alignment

    • arXiv:2502.16282
    • 中文摘要:研究多模态表示对齐(Representation Alignment)是如何在训练过程中涌现的。发现对齐并非训练的自然副产品,而是特定训练目标和数据分布的结果。
  3. Does Equivariance Matter at Scale?

    • arXiv:2410.23179
    • 中文摘要:研究在大规模设置下,等变性(Equivariance)是否仍然重要。发现在足够大规模下,模型可以通过学习来近似等变,但显式的等变约束仍然能带来更好的样本效率。
  4. Learning Transferable Visual Models From Natural Language Supervision

    • CLIP, OpenAI 2021
    • https://arxiv.org/abs/2103.00020
    • 中文摘要:CLIP 原始论文。通过4亿图文对的对比学习,训练出一个能迁移到多种视觉任务的模型。标志着多模态对齐从学术研究走向工业应用的转折点。
  5. Emerging Properties in Self-Supervised Vision Transformers (DINO)

    • arXiv:2104.14294
    • 中文摘要:自监督视觉Transformer中涌现出的语义分割能力,与多模态对齐的间接相关。

核心议题

  • 多模态对齐的极限:模型能学到"真正的"跨模态对应关系吗?
  • CLIP的成功是数据规模带来的还是架构带来的?
  • 对比学习中的负样本设计:什么是最优的?

[[MOC-如何AI一切|🗺️ 返回内容地图]]

基于 MIT MAS.S60 How to AI (Almost) Anything 翻译改编