Skip to content

第5-7周阅读:多模态AI

核心路径 — 以下为多模态模块核心阅读

§ 第5周:连接与对齐

必读

  1. Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions

    • Liang et al., 2022—2024
    • https://arxiv.org/abs/2209.03430
    • 中文摘要:本课程的"教科书"级综述。系统梳理了多模态机器学习的6大技术挑战:表征(Representation)、对齐(Alignment)、推理(Reasoning)、生成(Generation)、迁移(Transference)和量化(Quantification)。每个挑战都配有统一的形式化定义和代表性方法。
    • 要点:6大挑战框架、多模态学习的核心问题、开放研究方向
  2. What Makes for Good Views for Contrastive Learning?

    • NeurIPS 2020
    • https://arxiv.org/abs/2005.10243
    • 中文摘要:对比学习(Contrastive Learning)的核心问题——什么构成好的"视图"?本文提出了InfoMin原则:好的视图应保留与下游任务相关的信息,同时丢弃不相关的信息。这对多模态对比学习(如CLIP)中如何选择正负样本对具有重要指导意义。
    • 要点:InfoMin原则、视图设计准则、对比学习理论理解

扩展阅读

  • Characterization and classification of semantic image-text relations — 图像-文本语义关系分类
  • When and why vision-language models behave like bags-of-words — VLM的"词袋"行为分析

§ 第6周:交互与融合

必读

  1. Ten Myths of Multimodal Interaction

    • Oviatt et al., CACM 1999
    • https://dl.acm.org/doi/pdf/10.1145/319382.319398
    • 中文摘要:虽然是1999年的经典论文,但对多模态交互的"十大迷思"的讨论至今仍有价值。文章反驳了"更多模态总是更好"、"多模态输入会更高效"等常见直觉误区,用实验数据证明了多模态交互的复杂性和设计原则。
    • 要点:十大迷思清单、多模态交互的设计原则、模态互补性
  2. Quantifying & Modeling Multimodal Interactions: An Information Decomposition Framework

    • Liang et al., 2023
    • https://arxiv.org/abs/2302.12247
    • 中文摘要:提出了一个信息论框架来量化和建模多模态交互。将多模态信息分解为:唯一信息(Uniqueness)、冗余信息(Redundancy)和协同信息(Synergy),为理解多模态模型到底学到了什么提供了理论基础。
    • 要点:信息分解框架、唯一性/冗余性/协同性、多模态交互的定量分析

扩展阅读

  • Does my multimodal model learn cross-modal interactions? (EMNLP 2020) — 如何检验多模态模型是否真的学到了跨模态交互

§ 第7周:跨模态迁移

必读

  1. LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day

    • 2023
    • https://arxiv.org/abs/2303.00915v3
    • 中文摘要:将LLaVA扩展到生物医学领域,展示了跨模态迁移的实际应用。使用PubMed上的图文对数据,在一天内训练出一个生物医学视觉问答助手。体现了"基础模型+领域微调"范式的强大能力。
    • 要点:领域适配策略、视觉指令微调、生物医学应用
  2. PaLM-E: An Embodied Multimodal Language Model

    • 2023
    • https://arxiv.org/abs/2303.03378
    • 中文摘要:将多模态大语言模型引入具身AI(Embodied AI)领域。PaLM-E将机器人传感器数据、图像、文本等多种模态联合建模,展示了多模态模型在物理世界交互中的潜力。
    • 要点:具身多模态、传感器融合、LLM在机器人中的应用

扩展阅读

  • DreamLLM: Synergistic Multimodal Comprehension and Creation (arXiv:2309.11499)

[[MOC-如何AI一切|🗺️ 返回内容地图]]

基于 MIT MAS.S60 How to AI (Almost) Anything 翻译改编