Skip to content

第 1 周阅读

本周阅读为本课程的核心综述文献,为后续所有模块奠定理论基础。建议按以下顺序阅读。


论文一:多模态机器学习综述(核心必读)

英文标题:Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions

链接arXiv:2209.03430

中文译名:《多模态机器学习的基础与趋势:原理、挑战与开放问题》

概述

本文由 CMU 的 Paul Liang(也是本课程讲师)等人撰写,是一篇广泛而深入的多模态机器学习综述。它系统性地梳理了多模态 AI 领域的原理、核心挑战和尚未解决的开放问题。全文将多模态研究提炼为 六大核心挑战

  1. 表示(Representation):如何学习和融合不同模态的数据表示?
  2. 对齐(Alignment):如何建立跨模态元素的直接对应关系?
  3. 推理(Reasoning):如何利用多模态知识进行多步推理?
  4. 生成(Generation):如何基于多模态信息生成新内容?
  5. 迁移(Transference):如何将知识从一种模态迁移到另一种?
  6. 量化(Quantification):如何理解、衡量和量化多模态交互的程度与类型?

核心价值

  • 提供了多模态 AI 领域最全面的概念框架和分类体系
  • 每种挑战都附有数学形式化定义和代表性方法
  • 详细讨论了开放性问题和未来方向

关键要点

  • 多模态学习不是拼接多个单模态模型,而是需要真正的跨模态交互机制
  • 不同模态之间存在异构性(heterogeneity)——数据结构、采样率和语义粒度的差异
  • 量化跨模态交互(Challenge #6)是理解多模态模型行为的关键
  • 许多多模态模型实际上并没有学到真正的跨模态交互,只是利用了单模态捷径

与本课程的关系

这篇论文贯穿整个课程。第 1 讲的概述对应其六大框架;第 5-7 周的 [[03-多模态]] 模块将深入讨论其中的表示、对齐和融合挑战;第 9-12 周的 [[04-大模型]] 模块将在此基础上讨论多模态大模型的最新进展。建议在整个学期中反复查阅本文的对应章节。


论文二:多模态机器学习的分类综述

英文标题:Multimodal Machine Learning: A Survey and Taxonomy

链接arXiv:1705.09406

中文译名:《多模态机器学习:综述与分类》

概述

这是多模态领域早期的一篇奠基性综述,由 Tadas Baltrušaitis 等人撰写。本文提出的分类体系将多模态学习分为 五大研究方向:表示、翻译、对齐、融合和联合学习(co-learning)。虽然时间较早(2017),但其分类框架至今仍被广泛引用,是理解多模态领域发展脉络的必读文献。

与论文一的关系

论文一(Liang 2023)可以看作是本文的"升级版"和"现代版":

  • 论文二提出了多模态学习的经典五分类
  • 论文一在此基础上扩展为六分类,增加了"量化(quantification)",并引入了更多形式化定义和最新进展

关键要点

  • 表示(Representation):联合表示 vs. 协同表示
  • 翻译(Translation):从模态 A 生成模态 B(如 text-to-image)
  • 对齐(Alignment):建立跨模态元素的直接对应
  • 融合(Fusion):模型级别的多模态信息整合
  • 联合学习(Co-learning):利用一种模态的知识帮助另一种模态的学习

与本课程的关系

本文为 [[03-多模态]] 模块提供了历史视角。阅读本文可以理解多模态领域的演化脉络——从 2017 年的经典框架到 2023 年的现代化框架。建议将本文与论文一对照阅读。


论文三:表示学习综述

英文标题:Representation Learning: A Review and New Perspectives

链接arXiv:1206.5538

中文译名:《表示学习:回顾与新视角》

概述

由 Yoshua Bengio、Aaron Courville 和 Pascal Vincent 撰写,是深度学习表示学习领域的奠基性综述。本文系统介绍了表示学习的核心思想——让机器自动从原始数据中发现有用的特征表示,而非依赖人工特征工程——并从理论角度分析了为什么深度表示学习在实践中有如此强大的效果。

核心观点

  • 好表示的标准:平滑性、线性性、层次性、可解释性和因果性
  • 无监督/自监督学习:无需人工标注即可学习有用表示
  • 深度架构的层次性:从低级特征(边缘、纹理)到高级语义(物体、概念)
  • 分布式表示:每个概念由多个神经元的联合激活表示(而非单一神经元)

关键要点

  • 表示学习是深度学习的核心范式,贯穿所有模态
  • 多模态表示学习的目标是找到一种共享表示空间,其中不同模态的语义信息可互相对齐
  • 自监督学习(如对比学习)是现代多模态表示学习的主力范式
  • 分布式表示使得模型能够处理指数级多的概念组合

与本课程的关系

本文为本课程提供了理论基础。所有后续话题——从模型架构([[02-基础/02-03-模型架构|模型架构]])到多模态对齐([[03-多模态/03-01-连接与对齐|连接与对齐]])到基础模型([[04-大模型/04-01-基础模型|基础模型]])——都建立在表示学习的框架之上。此外,本文作为 [[01-AI导论/01-02-AI研究方法|AI研究方法]] 中论文阅读策略的练习材料也非常合适。


阅读建议

论文优先级建议用时阅读方式
论文一(Liang 2023)⭐ 必读2-3 小时先浏览全文,学期中反复精读
论文二(Baltrušaitis 2017)⭐ 推荐1-2 小时重点理解五大分类框架
论文三(Bengio 2012)⭐ 推荐1-2 小时精读核心章节

学习策略

  1. 使用 [[01-AI导论/01-02-AI研究方法|AI研究方法]] 中介绍的"Skim → Read → Critique"策略
  2. 为每篇论文创建 Obsidian 笔记卡片
  3. 标注你不理解的概念和不同意的观点——带着问题来讨论课
  4. 为本学期项目寻找灵感和研究方向

相关笔记

  • [[01-AI导论/01-01-AI导论|AI导论]]
  • [[01-AI导论/01-02-AI研究方法|AI研究方法]]
  • [[03-多模态/03-01-连接与对齐|连接与对齐]]
  • [[04-大模型/04-01-基础模型|基础模型]]
  • [[项目/项目概述|项目概述]]

基于 MIT MAS.S60 How to AI (Almost) Anything 翻译改编