讨论03：多模态对齐

🔍 扩展内容 — 本节适合对多模态已有基本了解的学员

讨论主题

不同模态的表示是否在趋同？"柏拉图式表示假说"在多大程度上成立？对比学习和对齐方法的原理与局限。

阅读材料

The Platonic Representation Hypothesis
- arXiv:2405.07987
- 中文摘要：提出"柏拉图式表示假说"——不同模型（即使在不同模态上训练）的表示空间正在收敛到同一个共享抽象空间。如果这一假说成立，意味着存在一个独立于模态的"理想表示"。本文给出了初步的理论和实验证据。
- 讨论：表示收敛的极限是什么？这与多模态对齐有何关系？
Understanding the Emergence of Multimodal Representation Alignment
- arXiv:2502.16282
- 中文摘要：研究多模态表示对齐（Representation Alignment）是如何在训练过程中涌现的。发现对齐并非训练的自然副产品，而是特定训练目标和数据分布的结果。
Does Equivariance Matter at Scale?
- arXiv:2410.23179
- 中文摘要：研究在大规模设置下，等变性（Equivariance）是否仍然重要。发现在足够大规模下，模型可以通过学习来近似等变，但显式的等变约束仍然能带来更好的样本效率。
Learning Transferable Visual Models From Natural Language Supervision
- CLIP, OpenAI 2021
- https://arxiv.org/abs/2103.00020
- 中文摘要：CLIP 原始论文。通过4亿图文对的对比学习，训练出一个能迁移到多种视觉任务的模型。标志着多模态对齐从学术研究走向工业应用的转折点。
Emerging Properties in Self-Supervised Vision Transformers (DINO)
- arXiv:2104.14294
- 中文摘要：自监督视觉Transformer中涌现出的语义分割能力，与多模态对齐的间接相关。

核心议题

多模态对齐的极限：模型能学到"真正的"跨模态对应关系吗？
CLIP的成功是数据规模带来的还是架构带来的？
对比学习中的负样本设计：什么是最优的？

[[MOC-如何AI一切|🗺️ 返回内容地图]]

讨论03：多模态对齐 ​

讨论主题 ​

阅读材料 ​

核心议题 ​

讨论03：多模态对齐

讨论主题

阅读材料

核心议题