Skip to content

跨模态迁移

核心路径 — 不同模态之间的知识如何迁移?本讲覆盖三种跨模态学习范式:融合(fusion)、对齐(alignment)和翻译(translation),以及它们在医疗、通用理解和具身智能中的前沿应用。

学习目标

完成本讲后,你应该能够:

  1. 区分 跨模态学习的三大范式:融合、对齐、翻译
  2. 解释 联合表示与共享空间的核心区别
  3. 描述 跨模态生成的训练策略与评估方法
  4. 比较 LLaVA-Med、DreamLLM 和 PaLM-E 的核心技术路线
  5. 批判性分析 跨模态迁移在不同场景下的优势和局限

一、跨模态学习的三大范式

跨模态学习的核心问题是:如何让一个模态的模型理解或利用另一个模态的信息? 根据信息的流动方式,可以将现有方法分为三类。

范式核心思路输入输出代表方法
融合 (Fusion)多模态输入→联合表示多模态(如文本+图像)联合决策/表示多模态 Transformer、VideoBERT
对齐 (Alignment)共享表示空间单模态(训练时成对)跨模态检索/比对CLIP、ALIGN、ImageBind
翻译 (Translation)模态 A → 模态 B一种模态另一种模态DALL·E、Whisper、Image Captioning

关键洞察: 这三种范式不是互斥的,现代系统通常组合使用。例如,DreamLLM 将融合(视觉与文本的联合建模)和翻译(图像生成)统一到一个框架中。


二、融合范式:联合表示学习

核心直觉

融合的目标是将多种模态的信息聚合到一个统一的表示中,使模型能够综合考虑来自不同源的信息进行推理。

融合策略的分类

融合发生在模型的不同阶段:

  1. 早期融合 (Early Fusion):在输入层将不同模态的特征拼接或相加,然后用单一模型处理

    • 优点:模态间的交互发生在最底层,捕捉细粒度关联
    • 缺点:模态之间的对齐必须是密集且精确的,否则噪声会被传播
  2. 中期融合 (Intermediate Fusion):每个模态先独立编码到一定层次,然后在中间表示层进行融合

    • 优点:每个模态可以先提取高层语义,减少对精确对齐的依赖
    • 代表:VideoBERT — 对视频帧和文本分别编码后,在 Transformer 的中间层进行交叉注意力
  3. 晚期融合 (Late Fusion):每个模态独立编码到最终表示层,在决策层融合(如平均 logits)

    • 优点:模态间完全独立,训练灵活,适合异步输入
    • 缺点:错过了模态间的交互信息

多模态 Transformer 的融合架构

当代多模态融合的标准架构是 多模态 Transformer,其核心设计选择是:

python
# 伪代码:多模态融合的三种 Transformer 变体
# (a) 拼接编码: Z = [Z_text; Z_image]  → Transformer → 联合表示
# (b) 交叉注意力: Z_text = CrossAttn(Z_text, Z_image)  # 文本看向图像
# (c) 统一模态:   Z_image 投影到文本 token 空间后拼接

# ViLT / LLaVA 使用 (c):将图像 patch 投影到文本嵌入空间
# Flamingo 使用 (b):在预训练 LLM 的层间插入交叉注意力
# BEiT-3 使用 (a):图像和文本 token 统一编码
模型融合策略编码器特色
ViLT早期融合—投影拼接ViT + BERT极简设计,无图像特征提取器
LLaVA中期融合—投影映射CLIP ViT + LLM简单线性投影,效果出色
Flamingo中期融合—门控交叉注意力Perceiver + Chinchilla冻结 LLM,轻量适配
BEiT-3早期融合—统一 tokenMultiway Transformer单一架构处理所有模态

三、对齐范式:共享表示空间

核心直觉

对齐的目标是找到一个共享的表示空间,使得不同模态中语义相似的样本在该空间中距离相近。这不对应于严格的模态间翻译,而是建立一个语义上可比的嵌入空间。

对比学习范式

当代跨模态对齐的基石是对比学习 (Contrastive Learning)

$$\mathcal{L}{\text{contrast}} = -\log \frac{\exp(\text{sim}(z_i^A, z_i^B)/\tau)}{\sum^{N} \exp(\text{sim}(z_i^A, z_j^B)/\tau)}$$

其中 $z_i^A$ 和 $z_i^B$ 是同一个概念在模态 A 和模态 B 中的表示,而 $z_j^B$ 是负样本。InfoNCE 损失促使正样本对的相似度高于所有负样本对。

CLIP 的突破

CLIP(Contrastive Language-Image Pre-training)使用 4 亿图文对进行对比学习,证明了弱监督下的跨模态对齐可以学到高质量的通用视觉表示

  • 文本编码器(Transformer)和图像编码器(ViT 或 ResNet)分别编码
  • batch size 32672,batch 内对比(图像-文本匹配对为正,其余为负)
  • 学到的表示可以直接用于零样本分类:将类别标签转换为"a photo of a {class}",取嵌入后和图像嵌入最匹配的标签

核心贡献: CLIP 显示了大规模对比预训练可以实现跨模态的强泛化,拉开了多模态基础模型时代的序幕。

从双塔到多模态统一

对齐范式的演进路径:

模型模态数对齐策略关键贡献
CLIP (2021)2(文本+图像)对比学习(双塔)零样本分类、跨模态检索
ALIGN (2021)2噪声文本监督 + 双塔10 亿数据缩放法则
ImageBind (2023)6以图像为锚点绑定所有模态无需所有模态的成对数据
LanguageBind (2023)6以语言为锚点语言模态的更丰富语义

ImageBind 的核心洞察: 如果模态 A 与图像对齐,模态 B 也与图像对齐,那么模态 A 和模态 B 自然对齐——无需 A-B 的成对数据。


四、翻译范式:跨模态生成

核心直觉

翻译的目标是在保留核心语义的前提下,将信息从一种模态转换为另一种模态。经典任务包括:

  • 图像描述(Image Captioning):图像 → 文本
  • 文本到图像生成(Text-to-Image):文本 → 图像
  • 语音识别(ASR)和语音合成(TTS):语音 ↔ 文本
  • 视频描述(Video Captioning):视频 → 文本
  • 视觉问答(VQA):图像+问题 → 答案

从 Encoder-Decoder 到 Diffusion

跨模态生成经历了从自回归模型到扩散模型的转变:

自回归翻译(衔接编码器-解码器)

图像 → ViT 编码 + 交叉注意力 → LLM 自回归生成 → 文本描述

核心挑战是模态鸿沟:编码器输出的视觉特征需要以利于生成模型理解的方式注入。

扩散翻译

python
# 文本条件图像生成的标准流程
# 1. 文本编码器(CLIP / T5)将文本转换为条件嵌入 c
# 2. 扩散模型从纯噪声开始,逐步去噪,每一步以 c 为条件
# 3. 将最终噪声图像映射回像素空间

# Score matching 视角:∇_x log p(x|c)
# 模型学习在条件 c 下数据分布的对数梯度

Benchmark 一览

任务输入 → 输出评估指标典型模型
图像描述图像 → 文本BLEU, CIDEr, SPICEBLIP-2, LLaVA
文生图文本 → 图像FID, CLIP ScoreDALL·E 3, Stable Diffusion
视觉问答图像+问题 → 答案VQA Acc.LLaVA-NeXT, Flamingo
文本转语音文本 → 音频MOS, WERWhisper + VITS
视频描述视频 → 文本CIDEr, METEORVideo-LLaMA

五、案例研究

5.1 LLaVA-Med:面向生物医学的跨模态对话

问题背景: 生物医学领域缺乏高质量的图文对话数据,手动标注成本极高。通用领域 VLM(如 LLaVA)在医学图像上表现不佳。

核心创新 — 两步训练法:

  1. 用 GPT-4 生成对话数据:对 PMC-15M 数据集(1500 万医学图文对)中的每个图像,利用其原始文本描述作为输入,调用 GPT-4 生成三类对话:

    • 单轮问答:What is shown in this image?
    • 多轮对话:基于图像的连续对话
    • 详细描述:完整的结构化医学描述
  2. 两阶段训练

    • 第一阶段:仅训练线性投影层,将 CLIP ViT-L/14 的医学图像特征映射到 LLaMA 的输入空间(冻结视觉编码器和 LLM)
    • 第二阶段:微调 LLM 层(LoRA)+ 投影层,在多轮对话数据上训练

关键结果:

  • 在 VQA-Rad(放射学问答)上准确率比 GPT-4 基线提升 20%
  • 举一反三能力:模型未见过的医学图像类型也能做出合理分析
  • 展示了知识蒸馏 (GPT-4 生成数据) + 跨模态对齐 (CLIP + LLaMA) 的组合威力

5.2 DreamLLM:统一融合与生成

问题背景: 现有多模态大模型要么只做理解(如 LLaVA),要么只做生成(如 DALL·E),缺乏将两者统一的框架。

核心创新 — 双向条件生成:

DreamLLM 的关键洞察是:真正的多模态理解应该包括生成能力。

DreamLLM 的统一架构:

输入: [文本 token] + [视觉 token (CLIP ViT 编码 + 投影)]

Process:
  ← LLM (LLaMA) 处理混合序列 →
  ← 自回归预测下一个文本 token →
  ← 自回归预测下一个视觉 token (离散编码) →

输出: 文本 或 图像 (通过 VQGAN 解码器解码)

训练损失: 文本 NLL + 视觉 NLL + 对比学习损失

独特优势:

  • 自然的多轮多模态对话:用户发一张图→模型描述→用户要求"画一个类似的"→模型生成图像
  • 概念绑定:语言和视觉在同一表示空间中相互锚定
  • 发散的创意生成:给定相同文本描述,可产生语义一致但视觉多样化的输出

与 LLaVA 的核心区别: LLaVA 只做理解(文本输出),DreamLLM 还可以生成视觉内容。

5.3 PaLM-E:具身多模态 AI

问题背景: 机器人需要融合视觉、语言、触觉和状态估计等多种连续传感器模态来做决策。传统机器人管道为每种模态设计独立模块,系统复杂且缺乏泛化。

核心创新 — 多模态 token 化的具身 Transformer:

PaLM-E 的核心洞见:将具身 AI 的连续传感器数据(图像、状态估计、场景表示)编码为 token 序列,与文本 token 一起输入 PaLM 语言模型进行联合推理。

PaLM-E 的 token 化策略:

1. 图像 token: ViT 编码 → 投影 → 视觉 token 序列
2. 状态 token: 机器人关节角度 (16 维) → MLP → 单个 token
3. 场景 token: NeRF 表示 → MLP → token
4. 文本 token: 标准 SentencePiece tokenizer

→ 所有 token 拼接输入 PaLM → 自回归预测 → 输出文本指令 / 动作

关键特性:

  • 正迁移 (Positive Transfer):在大规模语言数据上预训练的 PaLM 的知识可以迁移到机器人任务
  • 多任务统一:同一模型可以同时做视觉问答、任务规划和低层级动作生成
  • 错误恢复:将当前状态 token 化后重新输入,模型可以修正之前的错误决策
  • 语言作为通用接口:通过自然语言与机器人交互,人类可以指定高层目标

实验结果:

  • 在具身任务上的表现超过 RT-1(专为机器人设计的模型)
  • 零样本迁移:PaLM-E 可以执行训练时未见过的任务组合
  • 多任务泛化:562B 参数的 PaLM-E 展示了涌现的推理和规划能力

三种范式的系统视角

维度LLaVA-MedDreamLLMPaLM-E
主要范式融合 + 对齐融合 + 翻译融合 + 对齐
输入模态文本 + 图像文本 + 图像文本 + 图像 + 状态
输出模态文本文本 + 图像文本 + 动作
训练数据GPT-4 生成的医学对话LAION-5B 图文对互联网文本 + 机器人轨迹
基座模型LLaMA + CLIPLLaMA + VQGANPaLM
核心洞察GPT-4 蒸馏替代人工标注生成=理解的另一半将传感器状态 token 化

六、挑战与开放问题

6.1 模态鸿沟

不同模态的信息密度和语义粒度天然不同:

  • 一张图像包含的信息量可以相当于"千言万语"——但具体是哪些"言"取决于上下文
  • 文本是离散的符号系统,而传感器数据是连续的

后果: 直接将图像压缩为少量 token 会丢失信息;保留所有细节又会让语言模型不堪重负。

6.2 对齐假性相关

跨模态对比学习容易学到虚假的相关性 (spurious correlations)。例如,在医学图像中,模型可能利用"是否有 X 光设备标记"来判断医院科室,而不是真正的病理特征。

6.3 灾难性遗忘

当模型在多种模态上持续训练时,可能出现模态间的灾难性遗忘——学习图像生成时忘记了如何做文本推理。

6.4 评估困境

  • 图像生成的自动评估(FID、CLIP Score)与人类判断的关联有限
  • 跨模态对话的评估需要人工评估
  • 具身任务的"成功"定义因环境和任务而异

关键概念

概念定义
跨模态融合 (Cross-modal Fusion)将多种模态的信息聚合到统一表示中用于决策
跨模态对齐 (Cross-modal Alignment)在共享表示空间中将语义相似的跨模态样本拉近
跨模态翻译 (Cross-modal Translation)将信息从一种模态转换为另一种模态
对比学习 (Contrastive Learning)通过正负样本对比学习表示的范式
联合表示 (Joint Representation)多模态信息融合后的统一表示
模态鸿沟 (Modality Gap)不同模态在信息密度、语义粒度上的天然差异

讨论问题

  1. 跨模态学习的三种范式(融合、对齐、翻译)中,你认为哪种在长期来看最具影响力?为什么?
  2. LLaVA-Med 使用 GPT-4 生成训练数据的策略是否可以被推广到其他低资源领域?有哪些潜在风险?
  3. PaLM-E 将连续传感器数据 token 化后和文本一起输入 LLM——这种方式是否有局限性?你会如何改进?
  4. DreamLLM 提出"理解必须包含生成"——你同意这个观点吗?为什么?
  5. ImageBind 通过图像"桥接"所有其他模态,这种方法在什么情况下会失效?

延伸阅读

相关笔记

  • [[03-多模态/03-01-连接与对齐|连接与对齐]] — 多模态对齐的基础理论与方法
  • [[03-多模态/03-02-交互与融合|交互与融合]] — 多模态融合架构的设计空间
  • [[03-多模态/03-04-本周阅读|第5-7周阅读]]
  • [[04-大模型/04-02-多模态大模型|多模态大模型]] — 统一多模态基础模型
  • [[02-基础/02-03-模型架构|模型架构]] — Transformer 作为多模态融合的基础架构
  • [[MOC-如何AI一切|🗺️ 返回内容地图]]

基于 MIT MAS.S60 How to AI (Almost) Anything 翻译改编