跨模态迁移

⭐ 核心路径 — 不同模态之间的知识如何迁移？本讲覆盖三种跨模态学习范式：融合（fusion）、对齐（alignment）和翻译（translation），以及它们在医疗、通用理解和具身智能中的前沿应用。

学习目标

完成本讲后，你应该能够：

区分跨模态学习的三大范式：融合、对齐、翻译
解释联合表示与共享空间的核心区别
描述跨模态生成的训练策略与评估方法
比较 LLaVA-Med、DreamLLM 和 PaLM-E 的核心技术路线
批判性分析 跨模态迁移在不同场景下的优势和局限

一、跨模态学习的三大范式

跨模态学习的核心问题是：如何让一个模态的模型理解或利用另一个模态的信息？ 根据信息的流动方式，可以将现有方法分为三类。

范式	核心思路	输入	输出	代表方法
融合 (Fusion)	多模态输入→联合表示	多模态（如文本+图像）	联合决策/表示	多模态 Transformer、VideoBERT
对齐 (Alignment)	共享表示空间	单模态（训练时成对）	跨模态检索/比对	CLIP、ALIGN、ImageBind
翻译 (Translation)	模态 A → 模态 B	一种模态	另一种模态	DALL·E、Whisper、Image Captioning

关键洞察： 这三种范式不是互斥的，现代系统通常组合使用。例如，DreamLLM 将融合（视觉与文本的联合建模）和翻译（图像生成）统一到一个框架中。

二、融合范式：联合表示学习

核心直觉

融合的目标是将多种模态的信息聚合到一个统一的表示中，使模型能够综合考虑来自不同源的信息进行推理。

融合策略的分类

融合发生在模型的不同阶段：

早期融合 (Early Fusion)：在输入层将不同模态的特征拼接或相加，然后用单一模型处理
- 优点：模态间的交互发生在最底层，捕捉细粒度关联
- 缺点：模态之间的对齐必须是密集且精确的，否则噪声会被传播
中期融合 (Intermediate Fusion)：每个模态先独立编码到一定层次，然后在中间表示层进行融合
- 优点：每个模态可以先提取高层语义，减少对精确对齐的依赖
- 代表：VideoBERT — 对视频帧和文本分别编码后，在 Transformer 的中间层进行交叉注意力
晚期融合 (Late Fusion)：每个模态独立编码到最终表示层，在决策层融合（如平均 logits）
- 优点：模态间完全独立，训练灵活，适合异步输入
- 缺点：错过了模态间的交互信息

多模态 Transformer 的融合架构

当代多模态融合的标准架构是 多模态 Transformer，其核心设计选择是：

python

# 伪代码：多模态融合的三种 Transformer 变体
# (a) 拼接编码: Z = [Z_text; Z_image]  → Transformer → 联合表示
# (b) 交叉注意力: Z_text = CrossAttn(Z_text, Z_image)  # 文本看向图像
# (c) 统一模态:   Z_image 投影到文本 token 空间后拼接

# ViLT / LLaVA 使用 (c)：将图像 patch 投影到文本嵌入空间
# Flamingo 使用 (b)：在预训练 LLM 的层间插入交叉注意力
# BEiT-3 使用 (a)：图像和文本 token 统一编码

模型	融合策略	编码器	特色
ViLT	早期融合—投影拼接	ViT + BERT	极简设计，无图像特征提取器
LLaVA	中期融合—投影映射	CLIP ViT + LLM	简单线性投影，效果出色
Flamingo	中期融合—门控交叉注意力	Perceiver + Chinchilla	冻结 LLM，轻量适配
BEiT-3	早期融合—统一 token	Multiway Transformer	单一架构处理所有模态

三、对齐范式：共享表示空间

核心直觉

对齐的目标是找到一个共享的表示空间，使得不同模态中语义相似的样本在该空间中距离相近。这不对应于严格的模态间翻译，而是建立一个语义上可比的嵌入空间。

对比学习范式

当代跨模态对齐的基石是对比学习 (Contrastive Learning)：

$$\mathcal{L}{\text{contrast}} = -\log \frac{\exp(\text{sim}(z_i^A, z_i^B)/\tau)}{\sum^{N} \exp(\text{sim}(z_i^A, z_j^B)/\tau)}$$

其中 $z_i^A$ 和 $z_i^B$ 是同一个概念在模态 A 和模态 B 中的表示，而 $z_j^B$ 是负样本。InfoNCE 损失促使正样本对的相似度高于所有负样本对。

CLIP 的突破

CLIP（Contrastive Language-Image Pre-training）使用 4 亿图文对进行对比学习，证明了弱监督下的跨模态对齐可以学到高质量的通用视觉表示：

文本编码器（Transformer）和图像编码器（ViT 或 ResNet）分别编码
batch size 32672，batch 内对比（图像-文本匹配对为正，其余为负）
学到的表示可以直接用于零样本分类：将类别标签转换为"a photo of a {class}"，取嵌入后和图像嵌入最匹配的标签

核心贡献： CLIP 显示了大规模对比预训练可以实现跨模态的强泛化，拉开了多模态基础模型时代的序幕。

从双塔到多模态统一

对齐范式的演进路径：

模型	模态数	对齐策略	关键贡献
CLIP (2021)	2（文本+图像）	对比学习（双塔）	零样本分类、跨模态检索
ALIGN (2021)	2	噪声文本监督 + 双塔	10 亿数据缩放法则
ImageBind (2023)	6	以图像为锚点绑定所有模态	无需所有模态的成对数据
LanguageBind (2023)	6	以语言为锚点	语言模态的更丰富语义

ImageBind 的核心洞察： 如果模态 A 与图像对齐，模态 B 也与图像对齐，那么模态 A 和模态 B 自然对齐——无需 A-B 的成对数据。

四、翻译范式：跨模态生成

核心直觉

翻译的目标是在保留核心语义的前提下，将信息从一种模态转换为另一种模态。经典任务包括：

图像描述（Image Captioning）：图像 → 文本
文本到图像生成（Text-to-Image）：文本 → 图像
语音识别（ASR）和语音合成（TTS）：语音 ↔ 文本
视频描述（Video Captioning）：视频 → 文本
视觉问答（VQA）：图像+问题 → 答案

从 Encoder-Decoder 到 Diffusion

跨模态生成经历了从自回归模型到扩散模型的转变：

自回归翻译（衔接编码器-解码器）

图像 → ViT 编码 + 交叉注意力 → LLM 自回归生成 → 文本描述

核心挑战是模态鸿沟：编码器输出的视觉特征需要以利于生成模型理解的方式注入。

扩散翻译

python

# 文本条件图像生成的标准流程
# 1. 文本编码器（CLIP / T5）将文本转换为条件嵌入 c
# 2. 扩散模型从纯噪声开始，逐步去噪，每一步以 c 为条件
# 3. 将最终噪声图像映射回像素空间

# Score matching 视角：∇_x log p(x|c)
# 模型学习在条件 c 下数据分布的对数梯度

Benchmark 一览

任务	输入 → 输出	评估指标	典型模型
图像描述	图像 → 文本	BLEU, CIDEr, SPICE	BLIP-2, LLaVA
文生图	文本 → 图像	FID, CLIP Score	DALL·E 3, Stable Diffusion
视觉问答	图像+问题 → 答案	VQA Acc.	LLaVA-NeXT, Flamingo
文本转语音	文本 → 音频	MOS, WER	Whisper + VITS
视频描述	视频 → 文本	CIDEr, METEOR	Video-LLaMA

五、案例研究

5.1 LLaVA-Med：面向生物医学的跨模态对话

问题背景： 生物医学领域缺乏高质量的图文对话数据，手动标注成本极高。通用领域 VLM（如 LLaVA）在医学图像上表现不佳。

核心创新 — 两步训练法：

用 GPT-4 生成对话数据：对 PMC-15M 数据集（1500 万医学图文对）中的每个图像，利用其原始文本描述作为输入，调用 GPT-4 生成三类对话：
- 单轮问答：What is shown in this image?
- 多轮对话：基于图像的连续对话
- 详细描述：完整的结构化医学描述
两阶段训练：
- 第一阶段：仅训练线性投影层，将 CLIP ViT-L/14 的医学图像特征映射到 LLaMA 的输入空间（冻结视觉编码器和 LLM）
- 第二阶段：微调 LLM 层（LoRA）+ 投影层，在多轮对话数据上训练

关键结果：

在 VQA-Rad（放射学问答）上准确率比 GPT-4 基线提升 20%
举一反三能力：模型未见过的医学图像类型也能做出合理分析
展示了知识蒸馏 (GPT-4 生成数据) + 跨模态对齐 (CLIP + LLaMA) 的组合威力

5.2 DreamLLM：统一融合与生成

问题背景： 现有多模态大模型要么只做理解（如 LLaVA），要么只做生成（如 DALL·E），缺乏将两者统一的框架。

核心创新 — 双向条件生成：

DreamLLM 的关键洞察是：真正的多模态理解应该包括生成能力。

DreamLLM 的统一架构：

输入: [文本 token] + [视觉 token (CLIP ViT 编码 + 投影)]

Process:
  ← LLM (LLaMA) 处理混合序列 →
  ← 自回归预测下一个文本 token →
  ← 自回归预测下一个视觉 token (离散编码) →

输出: 文本 或 图像 (通过 VQGAN 解码器解码)

训练损失: 文本 NLL + 视觉 NLL + 对比学习损失

独特优势：

自然的多轮多模态对话：用户发一张图→模型描述→用户要求"画一个类似的"→模型生成图像
概念绑定：语言和视觉在同一表示空间中相互锚定
发散的创意生成：给定相同文本描述，可产生语义一致但视觉多样化的输出

与 LLaVA 的核心区别： LLaVA 只做理解（文本输出），DreamLLM 还可以生成视觉内容。

5.3 PaLM-E：具身多模态 AI

问题背景： 机器人需要融合视觉、语言、触觉和状态估计等多种连续传感器模态来做决策。传统机器人管道为每种模态设计独立模块，系统复杂且缺乏泛化。

核心创新 — 多模态 token 化的具身 Transformer：

PaLM-E 的核心洞见：将具身 AI 的连续传感器数据（图像、状态估计、场景表示）编码为 token 序列，与文本 token 一起输入 PaLM 语言模型进行联合推理。

PaLM-E 的 token 化策略:

1. 图像 token: ViT 编码 → 投影 → 视觉 token 序列
2. 状态 token: 机器人关节角度 (16 维) → MLP → 单个 token
3. 场景 token: NeRF 表示 → MLP → token
4. 文本 token: 标准 SentencePiece tokenizer

→ 所有 token 拼接输入 PaLM → 自回归预测 → 输出文本指令 / 动作

关键特性：

正迁移 (Positive Transfer)：在大规模语言数据上预训练的 PaLM 的知识可以迁移到机器人任务
多任务统一：同一模型可以同时做视觉问答、任务规划和低层级动作生成
错误恢复：将当前状态 token 化后重新输入，模型可以修正之前的错误决策
语言作为通用接口：通过自然语言与机器人交互，人类可以指定高层目标

实验结果：

在具身任务上的表现超过 RT-1（专为机器人设计的模型）
零样本迁移：PaLM-E 可以执行训练时未见过的任务组合
多任务泛化：562B 参数的 PaLM-E 展示了涌现的推理和规划能力

三种范式的系统视角

维度	LLaVA-Med	DreamLLM	PaLM-E
主要范式	融合 + 对齐	融合 + 翻译	融合 + 对齐
输入模态	文本 + 图像	文本 + 图像	文本 + 图像 + 状态
输出模态	文本	文本 + 图像	文本 + 动作
训练数据	GPT-4 生成的医学对话	LAION-5B 图文对	互联网文本 + 机器人轨迹
基座模型	LLaMA + CLIP	LLaMA + VQGAN	PaLM
核心洞察	GPT-4 蒸馏替代人工标注	生成=理解的另一半	将传感器状态 token 化

六、挑战与开放问题

6.1 模态鸿沟

不同模态的信息密度和语义粒度天然不同：

一张图像包含的信息量可以相当于"千言万语"——但具体是哪些"言"取决于上下文
文本是离散的符号系统，而传感器数据是连续的

后果： 直接将图像压缩为少量 token 会丢失信息；保留所有细节又会让语言模型不堪重负。

6.2 对齐假性相关

跨模态对比学习容易学到虚假的相关性 (spurious correlations)。例如，在医学图像中，模型可能利用"是否有 X 光设备标记"来判断医院科室，而不是真正的病理特征。

6.3 灾难性遗忘

当模型在多种模态上持续训练时，可能出现模态间的灾难性遗忘——学习图像生成时忘记了如何做文本推理。

6.4 评估困境

图像生成的自动评估（FID、CLIP Score）与人类判断的关联有限
跨模态对话的评估需要人工评估
具身任务的"成功"定义因环境和任务而异

关键概念

概念	定义
跨模态融合 (Cross-modal Fusion)	将多种模态的信息聚合到统一表示中用于决策
跨模态对齐 (Cross-modal Alignment)	在共享表示空间中将语义相似的跨模态样本拉近
跨模态翻译 (Cross-modal Translation)	将信息从一种模态转换为另一种模态
对比学习 (Contrastive Learning)	通过正负样本对比学习表示的范式
联合表示 (Joint Representation)	多模态信息融合后的统一表示
模态鸿沟 (Modality Gap)	不同模态在信息密度、语义粒度上的天然差异

讨论问题

跨模态学习的三种范式（融合、对齐、翻译）中，你认为哪种在长期来看最具影响力？为什么？
LLaVA-Med 使用 GPT-4 生成训练数据的策略是否可以被推广到其他低资源领域？有哪些潜在风险？
PaLM-E 将连续传感器数据 token 化后和文本一起输入 LLM——这种方式是否有局限性？你会如何改进？
DreamLLM 提出"理解必须包含生成"——你同意这个观点吗？为什么？
ImageBind 通过图像"桥接"所有其他模态，这种方法在什么情况下会失效？

跨模态迁移

学习目标

一、跨模态学习的三大范式

二、融合范式：联合表示学习

核心直觉

融合策略的分类

多模态 Transformer 的融合架构

三、对齐范式：共享表示空间

核心直觉

对比学习范式

CLIP 的突破

从双塔到多模态统一

四、翻译范式：跨模态生成

核心直觉

从 Encoder-Decoder 到 Diffusion

Benchmark 一览

五、案例研究

5.1 LLaVA-Med：面向生物医学的跨模态对话

5.2 DreamLLM：统一融合与生成

5.3 PaLM-E：具身多模态 AI

三种范式的系统视角

六、挑战与开放问题

6.1 模态鸿沟

6.2 对齐假性相关

6.3 灾难性遗忘

6.4 评估困境

关键概念

讨论问题

延伸阅读

相关笔记

跨模态迁移 ​

学习目标 ​

一、跨模态学习的三大范式 ​

二、融合范式：联合表示学习 ​

核心直觉 ​

融合策略的分类 ​

多模态 Transformer 的融合架构 ​

三、对齐范式：共享表示空间 ​

核心直觉 ​

对比学习范式 ​

CLIP 的突破 ​

从双塔到多模态统一 ​

四、翻译范式：跨模态生成 ​

核心直觉 ​

从 Encoder-Decoder 到 Diffusion ​

Benchmark 一览 ​

五、案例研究 ​

5.1 LLaVA-Med：面向生物医学的跨模态对话 ​

5.2 DreamLLM：统一融合与生成 ​

5.3 PaLM-E：具身多模态 AI ​

三种范式的系统视角 ​

六、挑战与开放问题 ​

6.1 模态鸿沟 ​

6.2 对齐假性相关 ​

6.3 灾难性遗忘 ​

6.4 评估困境 ​

关键概念 ​

讨论问题 ​

延伸阅读 ​

相关笔记 ​

跨模态迁移

学习目标

一、跨模态学习的三大范式

二、融合范式：联合表示学习

核心直觉

融合策略的分类

多模态 Transformer 的融合架构

三、对齐范式：共享表示空间

核心直觉

对比学习范式

CLIP 的突破

从双塔到多模态统一

四、翻译范式：跨模态生成

核心直觉

从 Encoder-Decoder 到 Diffusion

Benchmark 一览

五、案例研究

5.1 LLaVA-Med：面向生物医学的跨模态对话

5.2 DreamLLM：统一融合与生成

5.3 PaLM-E：具身多模态 AI

三种范式的系统视角

六、挑战与开放问题

6.1 模态鸿沟

6.2 对齐假性相关

6.3 灾难性遗忘

6.4 评估困境

关键概念

讨论问题

延伸阅读

相关笔记