跨模态迁移
⭐ 核心路径 — 不同模态之间的知识如何迁移?本讲覆盖三种跨模态学习范式:融合(fusion)、对齐(alignment)和翻译(translation),以及它们在医疗、通用理解和具身智能中的前沿应用。
学习目标
完成本讲后,你应该能够:
- 区分 跨模态学习的三大范式:融合、对齐、翻译
- 解释 联合表示与共享空间的核心区别
- 描述 跨模态生成的训练策略与评估方法
- 比较 LLaVA-Med、DreamLLM 和 PaLM-E 的核心技术路线
- 批判性分析 跨模态迁移在不同场景下的优势和局限
一、跨模态学习的三大范式
跨模态学习的核心问题是:如何让一个模态的模型理解或利用另一个模态的信息? 根据信息的流动方式,可以将现有方法分为三类。
| 范式 | 核心思路 | 输入 | 输出 | 代表方法 |
|---|---|---|---|---|
| 融合 (Fusion) | 多模态输入→联合表示 | 多模态(如文本+图像) | 联合决策/表示 | 多模态 Transformer、VideoBERT |
| 对齐 (Alignment) | 共享表示空间 | 单模态(训练时成对) | 跨模态检索/比对 | CLIP、ALIGN、ImageBind |
| 翻译 (Translation) | 模态 A → 模态 B | 一种模态 | 另一种模态 | DALL·E、Whisper、Image Captioning |
关键洞察: 这三种范式不是互斥的,现代系统通常组合使用。例如,DreamLLM 将融合(视觉与文本的联合建模)和翻译(图像生成)统一到一个框架中。
二、融合范式:联合表示学习
核心直觉
融合的目标是将多种模态的信息聚合到一个统一的表示中,使模型能够综合考虑来自不同源的信息进行推理。
融合策略的分类
融合发生在模型的不同阶段:
早期融合 (Early Fusion):在输入层将不同模态的特征拼接或相加,然后用单一模型处理
- 优点:模态间的交互发生在最底层,捕捉细粒度关联
- 缺点:模态之间的对齐必须是密集且精确的,否则噪声会被传播
中期融合 (Intermediate Fusion):每个模态先独立编码到一定层次,然后在中间表示层进行融合
- 优点:每个模态可以先提取高层语义,减少对精确对齐的依赖
- 代表:VideoBERT — 对视频帧和文本分别编码后,在 Transformer 的中间层进行交叉注意力
晚期融合 (Late Fusion):每个模态独立编码到最终表示层,在决策层融合(如平均 logits)
- 优点:模态间完全独立,训练灵活,适合异步输入
- 缺点:错过了模态间的交互信息
多模态 Transformer 的融合架构
当代多模态融合的标准架构是 多模态 Transformer,其核心设计选择是:
# 伪代码:多模态融合的三种 Transformer 变体
# (a) 拼接编码: Z = [Z_text; Z_image] → Transformer → 联合表示
# (b) 交叉注意力: Z_text = CrossAttn(Z_text, Z_image) # 文本看向图像
# (c) 统一模态: Z_image 投影到文本 token 空间后拼接
# ViLT / LLaVA 使用 (c):将图像 patch 投影到文本嵌入空间
# Flamingo 使用 (b):在预训练 LLM 的层间插入交叉注意力
# BEiT-3 使用 (a):图像和文本 token 统一编码| 模型 | 融合策略 | 编码器 | 特色 |
|---|---|---|---|
| ViLT | 早期融合—投影拼接 | ViT + BERT | 极简设计,无图像特征提取器 |
| LLaVA | 中期融合—投影映射 | CLIP ViT + LLM | 简单线性投影,效果出色 |
| Flamingo | 中期融合—门控交叉注意力 | Perceiver + Chinchilla | 冻结 LLM,轻量适配 |
| BEiT-3 | 早期融合—统一 token | Multiway Transformer | 单一架构处理所有模态 |
三、对齐范式:共享表示空间
核心直觉
对齐的目标是找到一个共享的表示空间,使得不同模态中语义相似的样本在该空间中距离相近。这不对应于严格的模态间翻译,而是建立一个语义上可比的嵌入空间。
对比学习范式
当代跨模态对齐的基石是对比学习 (Contrastive Learning):
$$\mathcal{L}{\text{contrast}} = -\log \frac{\exp(\text{sim}(z_i^A, z_i^B)/\tau)}{\sum^{N} \exp(\text{sim}(z_i^A, z_j^B)/\tau)}$$
其中 $z_i^A$ 和 $z_i^B$ 是同一个概念在模态 A 和模态 B 中的表示,而 $z_j^B$ 是负样本。InfoNCE 损失促使正样本对的相似度高于所有负样本对。
CLIP 的突破
CLIP(Contrastive Language-Image Pre-training)使用 4 亿图文对进行对比学习,证明了弱监督下的跨模态对齐可以学到高质量的通用视觉表示:
- 文本编码器(Transformer)和图像编码器(ViT 或 ResNet)分别编码
- batch size 32672,batch 内对比(图像-文本匹配对为正,其余为负)
- 学到的表示可以直接用于零样本分类:将类别标签转换为"a photo of a {class}",取嵌入后和图像嵌入最匹配的标签
核心贡献: CLIP 显示了大规模对比预训练可以实现跨模态的强泛化,拉开了多模态基础模型时代的序幕。
从双塔到多模态统一
对齐范式的演进路径:
| 模型 | 模态数 | 对齐策略 | 关键贡献 |
|---|---|---|---|
| CLIP (2021) | 2(文本+图像) | 对比学习(双塔) | 零样本分类、跨模态检索 |
| ALIGN (2021) | 2 | 噪声文本监督 + 双塔 | 10 亿数据缩放法则 |
| ImageBind (2023) | 6 | 以图像为锚点绑定所有模态 | 无需所有模态的成对数据 |
| LanguageBind (2023) | 6 | 以语言为锚点 | 语言模态的更丰富语义 |
ImageBind 的核心洞察: 如果模态 A 与图像对齐,模态 B 也与图像对齐,那么模态 A 和模态 B 自然对齐——无需 A-B 的成对数据。
四、翻译范式:跨模态生成
核心直觉
翻译的目标是在保留核心语义的前提下,将信息从一种模态转换为另一种模态。经典任务包括:
- 图像描述(Image Captioning):图像 → 文本
- 文本到图像生成(Text-to-Image):文本 → 图像
- 语音识别(ASR)和语音合成(TTS):语音 ↔ 文本
- 视频描述(Video Captioning):视频 → 文本
- 视觉问答(VQA):图像+问题 → 答案
从 Encoder-Decoder 到 Diffusion
跨模态生成经历了从自回归模型到扩散模型的转变:
自回归翻译(衔接编码器-解码器)
图像 → ViT 编码 + 交叉注意力 → LLM 自回归生成 → 文本描述核心挑战是模态鸿沟:编码器输出的视觉特征需要以利于生成模型理解的方式注入。
扩散翻译
# 文本条件图像生成的标准流程
# 1. 文本编码器(CLIP / T5)将文本转换为条件嵌入 c
# 2. 扩散模型从纯噪声开始,逐步去噪,每一步以 c 为条件
# 3. 将最终噪声图像映射回像素空间
# Score matching 视角:∇_x log p(x|c)
# 模型学习在条件 c 下数据分布的对数梯度Benchmark 一览
| 任务 | 输入 → 输出 | 评估指标 | 典型模型 |
|---|---|---|---|
| 图像描述 | 图像 → 文本 | BLEU, CIDEr, SPICE | BLIP-2, LLaVA |
| 文生图 | 文本 → 图像 | FID, CLIP Score | DALL·E 3, Stable Diffusion |
| 视觉问答 | 图像+问题 → 答案 | VQA Acc. | LLaVA-NeXT, Flamingo |
| 文本转语音 | 文本 → 音频 | MOS, WER | Whisper + VITS |
| 视频描述 | 视频 → 文本 | CIDEr, METEOR | Video-LLaMA |
五、案例研究
5.1 LLaVA-Med:面向生物医学的跨模态对话
问题背景: 生物医学领域缺乏高质量的图文对话数据,手动标注成本极高。通用领域 VLM(如 LLaVA)在医学图像上表现不佳。
核心创新 — 两步训练法:
用 GPT-4 生成对话数据:对 PMC-15M 数据集(1500 万医学图文对)中的每个图像,利用其原始文本描述作为输入,调用 GPT-4 生成三类对话:
- 单轮问答:What is shown in this image?
- 多轮对话:基于图像的连续对话
- 详细描述:完整的结构化医学描述
两阶段训练:
- 第一阶段:仅训练线性投影层,将 CLIP ViT-L/14 的医学图像特征映射到 LLaMA 的输入空间(冻结视觉编码器和 LLM)
- 第二阶段:微调 LLM 层(LoRA)+ 投影层,在多轮对话数据上训练
关键结果:
- 在 VQA-Rad(放射学问答)上准确率比 GPT-4 基线提升 20%
- 举一反三能力:模型未见过的医学图像类型也能做出合理分析
- 展示了知识蒸馏 (GPT-4 生成数据) + 跨模态对齐 (CLIP + LLaMA) 的组合威力
5.2 DreamLLM:统一融合与生成
问题背景: 现有多模态大模型要么只做理解(如 LLaVA),要么只做生成(如 DALL·E),缺乏将两者统一的框架。
核心创新 — 双向条件生成:
DreamLLM 的关键洞察是:真正的多模态理解应该包括生成能力。
DreamLLM 的统一架构:
输入: [文本 token] + [视觉 token (CLIP ViT 编码 + 投影)]
Process:
← LLM (LLaMA) 处理混合序列 →
← 自回归预测下一个文本 token →
← 自回归预测下一个视觉 token (离散编码) →
输出: 文本 或 图像 (通过 VQGAN 解码器解码)
训练损失: 文本 NLL + 视觉 NLL + 对比学习损失独特优势:
- 自然的多轮多模态对话:用户发一张图→模型描述→用户要求"画一个类似的"→模型生成图像
- 概念绑定:语言和视觉在同一表示空间中相互锚定
- 发散的创意生成:给定相同文本描述,可产生语义一致但视觉多样化的输出
与 LLaVA 的核心区别: LLaVA 只做理解(文本输出),DreamLLM 还可以生成视觉内容。
5.3 PaLM-E:具身多模态 AI
问题背景: 机器人需要融合视觉、语言、触觉和状态估计等多种连续传感器模态来做决策。传统机器人管道为每种模态设计独立模块,系统复杂且缺乏泛化。
核心创新 — 多模态 token 化的具身 Transformer:
PaLM-E 的核心洞见:将具身 AI 的连续传感器数据(图像、状态估计、场景表示)编码为 token 序列,与文本 token 一起输入 PaLM 语言模型进行联合推理。
PaLM-E 的 token 化策略:
1. 图像 token: ViT 编码 → 投影 → 视觉 token 序列
2. 状态 token: 机器人关节角度 (16 维) → MLP → 单个 token
3. 场景 token: NeRF 表示 → MLP → token
4. 文本 token: 标准 SentencePiece tokenizer
→ 所有 token 拼接输入 PaLM → 自回归预测 → 输出文本指令 / 动作关键特性:
- 正迁移 (Positive Transfer):在大规模语言数据上预训练的 PaLM 的知识可以迁移到机器人任务
- 多任务统一:同一模型可以同时做视觉问答、任务规划和低层级动作生成
- 错误恢复:将当前状态 token 化后重新输入,模型可以修正之前的错误决策
- 语言作为通用接口:通过自然语言与机器人交互,人类可以指定高层目标
实验结果:
- 在具身任务上的表现超过 RT-1(专为机器人设计的模型)
- 零样本迁移:PaLM-E 可以执行训练时未见过的任务组合
- 多任务泛化:562B 参数的 PaLM-E 展示了涌现的推理和规划能力
三种范式的系统视角
| 维度 | LLaVA-Med | DreamLLM | PaLM-E |
|---|---|---|---|
| 主要范式 | 融合 + 对齐 | 融合 + 翻译 | 融合 + 对齐 |
| 输入模态 | 文本 + 图像 | 文本 + 图像 | 文本 + 图像 + 状态 |
| 输出模态 | 文本 | 文本 + 图像 | 文本 + 动作 |
| 训练数据 | GPT-4 生成的医学对话 | LAION-5B 图文对 | 互联网文本 + 机器人轨迹 |
| 基座模型 | LLaMA + CLIP | LLaMA + VQGAN | PaLM |
| 核心洞察 | GPT-4 蒸馏替代人工标注 | 生成=理解的另一半 | 将传感器状态 token 化 |
六、挑战与开放问题
6.1 模态鸿沟
不同模态的信息密度和语义粒度天然不同:
- 一张图像包含的信息量可以相当于"千言万语"——但具体是哪些"言"取决于上下文
- 文本是离散的符号系统,而传感器数据是连续的
后果: 直接将图像压缩为少量 token 会丢失信息;保留所有细节又会让语言模型不堪重负。
6.2 对齐假性相关
跨模态对比学习容易学到虚假的相关性 (spurious correlations)。例如,在医学图像中,模型可能利用"是否有 X 光设备标记"来判断医院科室,而不是真正的病理特征。
6.3 灾难性遗忘
当模型在多种模态上持续训练时,可能出现模态间的灾难性遗忘——学习图像生成时忘记了如何做文本推理。
6.4 评估困境
- 图像生成的自动评估(FID、CLIP Score)与人类判断的关联有限
- 跨模态对话的评估需要人工评估
- 具身任务的"成功"定义因环境和任务而异
关键概念
| 概念 | 定义 |
|---|---|
| 跨模态融合 (Cross-modal Fusion) | 将多种模态的信息聚合到统一表示中用于决策 |
| 跨模态对齐 (Cross-modal Alignment) | 在共享表示空间中将语义相似的跨模态样本拉近 |
| 跨模态翻译 (Cross-modal Translation) | 将信息从一种模态转换为另一种模态 |
| 对比学习 (Contrastive Learning) | 通过正负样本对比学习表示的范式 |
| 联合表示 (Joint Representation) | 多模态信息融合后的统一表示 |
| 模态鸿沟 (Modality Gap) | 不同模态在信息密度、语义粒度上的天然差异 |
讨论问题
- 跨模态学习的三种范式(融合、对齐、翻译)中,你认为哪种在长期来看最具影响力?为什么?
- LLaVA-Med 使用 GPT-4 生成训练数据的策略是否可以被推广到其他低资源领域?有哪些潜在风险?
- PaLM-E 将连续传感器数据 token 化后和文本一起输入 LLM——这种方式是否有局限性?你会如何改进?
- DreamLLM 提出"理解必须包含生成"——你同意这个观点吗?为什么?
- ImageBind 通过图像"桥接"所有其他模态,这种方法在什么情况下会失效?
延伸阅读
- 必读:CLIP: Learning Transferable Visual Models From Natural Language Supervision
- 必读:PaLM-E: An Embodied Multimodal Language Model
- 推荐:LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine
- 推荐:DreamLLM: Synergistic Multimodal Comprehension and Creation
- 推荐:ImageBind: One Embedding Space To Bind Them All
- 扩展:Flamingo: a Visual Language Model for Few-Shot Learning
相关笔记
- [[03-多模态/03-01-连接与对齐|连接与对齐]] — 多模态对齐的基础理论与方法
- [[03-多模态/03-02-交互与融合|交互与融合]] — 多模态融合架构的设计空间
- [[03-多模态/03-04-本周阅读|第5-7周阅读]]
- [[04-大模型/04-02-多模态大模型|多模态大模型]] — 统一多模态基础模型
- [[02-基础/02-03-模型架构|模型架构]] — Transformer 作为多模态融合的基础架构
- [[MOC-如何AI一切|🗺️ 返回内容地图]]
