第5-7周阅读：多模态AI

⭐ 核心路径 — 以下为多模态模块核心阅读

§ 第5周：连接与对齐

Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions
- Liang et al., 2022—2024
- https://arxiv.org/abs/2209.03430
- 中文摘要：本课程的"教科书"级综述。系统梳理了多模态机器学习的6大技术挑战：表征（Representation）、对齐（Alignment）、推理（Reasoning）、生成（Generation）、迁移（Transference）和量化（Quantification）。每个挑战都配有统一的形式化定义和代表性方法。
- 要点：6大挑战框架、多模态学习的核心问题、开放研究方向
What Makes for Good Views for Contrastive Learning?
- NeurIPS 2020
- https://arxiv.org/abs/2005.10243
- 中文摘要：对比学习（Contrastive Learning）的核心问题——什么构成好的"视图"？本文提出了InfoMin原则：好的视图应保留与下游任务相关的信息，同时丢弃不相关的信息。这对多模态对比学习（如CLIP）中如何选择正负样本对具有重要指导意义。
- 要点：InfoMin原则、视图设计准则、对比学习理论理解

Characterization and classification of semantic image-text relations — 图像-文本语义关系分类
When and why vision-language models behave like bags-of-words — VLM的"词袋"行为分析

Ten Myths of Multimodal Interaction
- Oviatt et al., CACM 1999
- https://dl.acm.org/doi/pdf/10.1145/319382.319398
- 中文摘要：虽然是1999年的经典论文，但对多模态交互的"十大迷思"的讨论至今仍有价值。文章反驳了"更多模态总是更好"、"多模态输入会更高效"等常见直觉误区，用实验数据证明了多模态交互的复杂性和设计原则。
- 要点：十大迷思清单、多模态交互的设计原则、模态互补性
Quantifying & Modeling Multimodal Interactions: An Information Decomposition Framework
- Liang et al., 2023
- https://arxiv.org/abs/2302.12247
- 中文摘要：提出了一个信息论框架来量化和建模多模态交互。将多模态信息分解为：唯一信息（Uniqueness）、冗余信息（Redundancy）和协同信息（Synergy），为理解多模态模型到底学到了什么提供了理论基础。
- 要点：信息分解框架、唯一性/冗余性/协同性、多模态交互的定量分析

Does my multimodal model learn cross-modal interactions? (EMNLP 2020) — 如何检验多模态模型是否真的学到了跨模态交互

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day
- 2023
- https://arxiv.org/abs/2303.00915v3
- 中文摘要：将LLaVA扩展到生物医学领域，展示了跨模态迁移的实际应用。使用PubMed上的图文对数据，在一天内训练出一个生物医学视觉问答助手。体现了"基础模型+领域微调"范式的强大能力。
- 要点：领域适配策略、视觉指令微调、生物医学应用
PaLM-E: An Embodied Multimodal Language Model
- 2023
- https://arxiv.org/abs/2303.03378
- 中文摘要：将多模态大语言模型引入具身AI（Embodied AI）领域。PaLM-E将机器人传感器数据、图像、文本等多种模态联合建模，展示了多模态模型在物理世界交互中的潜力。
- 要点：具身多模态、传感器融合、LLM在机器人中的应用

DreamLLM: Synergistic Multimodal Comprehension and Creation (arXiv:2309.11499)

[[MOC-如何AI一切|🗺️ 返回内容地图]]