⭐ 交互②:具身 AI
⭐ 核心路径 — 具身 AI(Embodied AI)将大模型的能力从数字世界延伸到物理世界。从 PaLM-E 到 RT-2,AI 正在学会"动手"——通过感知、推理和行动在真实环境中完成任务。
学习目标
完成本讲后,你应该能够:
- 解释 具身假设(Embodiment Hypothesis)及其对 AI 研究的根本意义
- 描述 PaLM-E、SayCan、RT-2 三种具身 AI 模型的架构差异与演进关系
- 分析 sim2real 迁移的核心挑战及当前应对策略
- 评估 大模型赋能机器人后带来的新能力与新风险
- 列举 具身 AI 在真实世界中的主要应用场景
一、具身 AI:概念与假设
什么是具身 AI?
具身 AI(Embodied AI) 指拥有物理身体、能够在真实环境中**感知(Perceive)→ 推理(Reason)→ 行动(Act)**的智能体。与纯语言模型在数字空间中处理符号不同,具身 AI 必须应对物理世界的复杂性。
纯语言模型: 文本输入 → 推理 → 文本输出
↕
具身 AI: 传感器输入 → 推理 → 物理行动 → 环境反馈 → 更新感知...
↕
连续交互闭环(感知-行动循环)具身假设
具身假设(Embodiment Hypothesis) 认为:智能不能仅通过符号处理实现——物理交互是智能的必要组成部分。
这一假设挑战了经典 AI 的"符号主义"传统(Newell & Simon 的物理符号系统假设)。其核心论据包括:
| 论据 | 解释 | 经典支撑 |
|---|---|---|
| 意义 grounded | 概念必须锚定在物理体验中才能获得真实意义 | Harnad (1990) "符号锚定问题" |
| 交互塑造认知 | 智能通过与环境持续交互而涌现,而非静态推理 | Brooks (1991) "包容架构" |
| 感知-行动耦合 | 感知和行动不是独立的认知模块,而是紧密耦合的闭环 | Gibson (1979) "直接知觉" |
| 身体约束 | 身体的物理形态决定了感知和行动的可能范围 | Pfeifer & Bongard "如何让身体塑造大脑" |
具身假设的强形式甚至认为:没有物理身体的 AI 不可能达到人类级别的理解——因为"理解"从根本上依赖于物理体验。[[04-大模型/04-01-大模型基础|LLM 仅靠文本训练]]是否能真正"理解"世界,正是这一争论在当代的延续。
为什么 LLM 需要具身?
大语言模型在推理、对话、代码生成上表现出色,但它们面临一个根本局限:
LLM 知道"晴天的定义",但从未见过阳光
LLM 知道"苹果的味道",但从未尝过苹果
LLM 知道"推门的物理原理",但无法判断该推还是拉LLM 的知识是通过文本间接获取的,缺乏物理世界的验证与纠错。具身 AI 补上了这一环——让模型在真实交互中学习、验证和更新知识。
二、从 LLM 到物理行动
核心挑战
将 LLM 的知识迁移到物理行动需要解决三个关键问题:
- 语言 → 运动:将自然语言指令翻译为连续的机器人控制信号
- 语义理解 → 物理可行性:知道"该做什么"不等于"能做什么"
- 感知 → 行动:从视觉传感器输入到机械臂的精确运动
2.1 SayCan:语言 + 可行性
SayCan(Ahn et al., 2023, Google Robotics)是首将 LLM 用于机器人规划的代表作。其核心设计巧妙地结合了 LLM 的语义知识和价值函数的物理约束。
架构
用户指令:"把可乐拿给我"
↓ Say(语言层面)
LLM 将指令分解为子任务序列:
① 走到冰箱 → ② 打开冰箱门 → ③ 拿起可乐 → ④ 交给我
↓ Can(物理层面)
价值函数评估每个子任务的可行性:
① "走到冰箱" → 可行性 0.95 ✅
② "打开冰箱门" → 可行性 0.42 🤔(夹爪可能够不到)
③ "拿起可乐" → 可行性 0.88 ✅
④ "交给我" → 可行性 0.91 ✅
↓ 结合语义 + 可行性
选择最优的可行子任务执行...关键洞察
| 组件 | 功能 | 技术实现 |
|---|---|---|
| Say(LLM) | 知道"该做什么"——语义上合理的任务分解 | PaLM 540B 或类似 LLM |
| Can(价值函数) | 知道"能做什么"——当前机器人能力的可行性评估 | 语言条件价值函数(LCVF),从机器人经验中学习 |
| 规划器 | 将两者的输出结合,选择最优行动 | 加权和 + 贪心选择 |
SayCan 的核心贡献是证明了:LLM 的抽象知识 + 机器人的具体能力 = 可执行的高层规划。这一点与 [[04-大模型/04-03-推理与规划|推理与规划]] 中讨论的 ReAct 方法一脉相承,但 SayCan 将推理从数字世界延伸到了物理世界。
局限
- SayCan 只能选择预定义的技能(skils),无法生成全新的运动模式
- 依赖人工标注的技能库
- 高层推理与低层控制之间仍有鸿沟
2.2 PaLM-E:具身多模态大模型
PaLM-E(Driess et al., 2023, Google Robotics)是"具身 MLLM"的开创之作。它将机器人的连续传感器数据(视觉、力觉、本体感觉)直接嵌入 LLM 的 token 空间。
架构
PaLM-E = PaLM (540B) + 多模态编码器 + 具身 token
输入模态整合:
┌─ 文本 token ─┐
├─ 图像 token ─┤ → 单一联合 token 序列 → PaLM → 文本/行动输出
├─ 状态 token ─┤
└─ 神经 3D 表征 ┘核心创新:
- 具身 token(Embodied Token):将机器人的传感器读数编码为 token,与文本 token 拼接
- 多模态联合推理:同一模型在同一序列中对文本、图像、传感器数据进行推理
- 直接输出行动:不仅输出文本计划,还能输出机器人控制信号
关键能力
| 能力 | 描述 | 示例 |
|---|---|---|
| 视觉-语言-行动联合推理 | 在一个前向传播中完成"看-想-做" | "拿起蓝色方块" → 定位方块 → 规划抓取轨迹 → 执行 |
| 主动感知(Active Perception) | 为获取更多信息而移动 | "我看不清标籤" → 移动视角 → 重新识别 |
| 故障恢复 | 在失败时自主重新规划 | "方块滑落了" → 重新抓取 |
| 长期规划 | 多步骤任务分解 + 执行 | "准备沙拉" → 15 步分解 → 逐步执行 |
PaLM-E 证明了将 LLM 扩展到具身领域的可行性:540B 参数的 LLM 不仅可以"思考",还可以"看"和"做"。
2.3 RT-2:视觉-语言-行动统一模型
RT-2(Brohan et al., 2023, Google DeepMind)是 Google 机器人 Transformer 系列的第三代,它采取了更为激进的方案:将机器人行动直接表示为文本 token。
核心思想
RT-2 将机器人行动编码为文本 token:
行动:移动机械臂到 (0.2, 0.5, 0.3)
编码:<action_x_0.2> <action_y_0.5> <action_z_0.3>
→ 这样,机器人行动就可以像文本 token 一样被预测RT-2 的训练数据混合了:
- 互联网级视觉-语言数据:数十亿图文对(与 PaLM-E、PaLM 共用)
- 机器人操作数据:来自实验室的真实机器人轨迹
涌现能力
训练后,RT-2 展现出了令人惊讶的涌现能力——即使训练数据中从未出现某些物体或指令,RT-2 仍能正确操作:
| 涌现能力 | 训练数据中是否有 | 实际表现 |
|---|---|---|
| 捡起"灭绝的动物" | ❌ | 正确捡起了恐龙玩具 ✅ |
| 将"火箭"放入"垃圾桶" | ❌ | 正确识别并执行 ✅ |
| 根据品牌 logo 移动相应饮料 | ❌ | 正确区分百事可乐和可口可乐 ✅ |
三模型演进对比
| 维度 | SayCan (2023.04) | PaLM-E (2023.03) | RT-2 (2023.07) |
|---|---|---|---|
| 核心思想 | LLM + 价值函数融合 | 具身传感器作为 token | 行动编码为文本 token |
| 行动表示 | 选择预定义技能 | 可输出连续控制 | 离散化为文本 token |
| 训练数据 | 机器人经验 + LLM | 互联网数据 + 机器人数据 | 统一互联网 + 机器人数据 |
| 泛化能力 | 低(技能模板受限) | 中 | 高(涌现泛化) |
| 架构复杂度 | 低(两系统组合) | 高(多模态融合架构) | 中(标注的 seq2seq) |
三、Sim2Real:从仿真到真实
核心问题
在机器人学习中,训练通常在**仿真(Sim)环境中进行(安全、快速、可大规模并行),但目标部署在真实(Real)**世界。两者之间的差距被称为 Sim2Real Gap。
Sim2Real 挑战
| 挑战类别 | 具体问题 | 描述 | 典型应对策略 |
|---|---|---|---|
| 物理参数差异 | 摩擦力、惯性、质量 | 仿真器的物理参数永远无法完美模拟真实 | 域随机化(Domain Randomization):在训练时随机化物理参数 |
| 感知差异 | 视觉渲染 vs 真实图像 | 仿真渲染的纹理、光照、材质与现实有差距 | 域适应(Domain Adaptation):GAN / 风格迁移缩小视觉差异 |
| 动态差异 | 接触动力学 | 碰撞、抓取、摩擦等接触动力学高度非线性,难以准确建模 | 系统辨识 + 在线自适应(Online Adaptation) |
| 延迟差异 | 控制延迟 | 仿真中控制指令即时执行,真实机器人有传感器→计算→执行延迟 | 延迟建模 + 鲁棒控制 |
| 分布外泛化 | 训练 vs 测试分布偏移 | 真实世界的物体位置、种类、光照等无穷变化 | 数据增强 + 大规模域随机化 |
| 评估瓶颈 | 真实评估成本高 | 仿真中可百万次评估,真实世界每步都花费物理时间和维护 | 课程学习 + 渐进式部署 |
| 安全问题 | 故障模式 | 仿真中碰撞无害,真实中会损坏机器人或环境 | 安全约束 + 动作限制 + 碰撞检测回退 |
域随机化(Domain Randomization)
域随机化是目前应对 Sim2Real 最有效的策略之一。其核心思想是:在仿真训练中随机化所有可能变化的参数,使模型学会应对各种情况——这样真实世界看起来只是"另一种随机化"。
域随机化涉及的参数:
视觉:光照角度、颜色温度、纹理、相机位置、背景
物理:摩擦力系数、质量、惯性矩、弹簧阻尼
形态:机器人关节长度、传感器噪声、执行器延迟
任务:物体初始位置、目标位置、障碍物配置最新进展
- Isaac Gym / MuJoCo / SAPIEN 等高性能物理仿真器 + GPU 并行大幅加速 Sim2Real
- DiffPhysics(可微分物理引擎)使仿真物理参数可以通过梯度下降自动优化
- Foundation Models as Simulator:直接用 LLM/VLM 模拟环境反馈,跳过了"物理仿真"环节(如 Inner Monologue)
四、长期任务规划与推理
具身场景下的规划挑战
相比纯语言推理,具身 AI 的规划面临额外挑战:
| 挑战 | 描述 | 对比纯语言推理(如 CoT) |
|---|---|---|
| 状态不确定性 | 传感器噪声导致对当前状态的置信度有限 | 符号推理中状态完全可观测 |
| 行动后果不确定性 | 物理行动可能失败(滑落、偏转、碰撞) | 符号行动总是"成功" |
| 长期依赖 | 一个 100 步任务中,早期错误会累积到不可恢复 | 语言推理可随时修正 |
| 时间约束 | 某些行动必须在时间窗口内完成 | 无时间概念 |
| 资源约束 | 电池、物理空间、机械磨损等硬件限制 | 无资源概念 |
Code as Policies(CaP)
CaP(Liang et al., 2023)是解决长期规划的一种优雅方法:让 LLM 生成机器人控制代码而非自然语言规划。
Prompt: "把桌上的方块叠放到杯子旁边"
LLM 生成:
def pick_and_place():
block = get_block_location("cube") # 感知
cup = get_cup_location("red_cup") # 感知
move_to(block) # 移动
grasp() # 抓取
move_to((cup.x + 0.1, cup.y, cup.z + 0.2)) # 放置
release() # 释放
# 检查是否成功
if not check_grasp("cube"):
retry_grasp() # 自主恢复CaP 的关键优势:
- 代码 = 可执行 + 可组合 + 可调试的规划
- 可以利用编程结构(循环、条件、函数)表达复杂行为
- LLM 在代码生成上的强大能力可以直接服务于机器人
五、安全与对齐
物理世界的安全挑战
具身 AI 的安全问题比纯语言模型更严重——因为错误不再只是"错误的文本",而是可能造成物理损害。
| 风险类别 | 示例 | 严重程度 |
|---|---|---|
| 物理伤害 | 机械臂撞击人体、移动机器人撞倒行人 | 🔴 致命 |
| 财产损失 | 夹持力度过大压碎物体、碰撞损坏物品 | 🟠 高 |
| 环境破坏 | 自动驾驶失控撞击护栏、无人机坠落 | 🟠 高 |
| 操作失败 | 抓取失败导致物料散落、门未关好 | 🟡 中 |
| 任务偏差 | 清洁机器人将贵重物品当作垃圾扔掉 | 🟡 中 |
对齐策略
- 硬约束(Hard Constraints):在控制层设置不可违反的安全界限(如最大力、速度、空间边界)
- 奖励塑形(Reward Shaping):在 RL 训练中加入安全惩罚项
- 关停开关(Kill Switch):人类随时可以中断操作——最简单的安全保障
- 不确定性感知(Uncertainty-Aware):当模型对行动后果不确定时,主动请求人类确认
- 约束型 LLM 规划:在 LLM 规划阶段的 prompt 中注入安全约束,如 "Do not attempt actions that could harm humans"
六、应用场景
机器人操作
- 家庭服务:SayCan / RT-2 在厨房操作中的演示——取物、清洁、整理
- 工业制造:基于 LLM 的柔性制造——机器人根据自然语言指令快速切换制造任务
- 仓储物流:订单拣选、包裹分拣——Amazon Robotics + LLM 导航
自动驾驶
- 感知:视觉 + 语言统一模型(如 DriveGPT-4)理解复杂交通场景
- 规划:LLM 处理罕见场景、路标阅读、交警手势理解
- V2X 通信:车辆与基础设施的语言级通信
智能环境
- 智能家居:通过自然语言控制全屋设备,并能理解隐式需求("我冷了"→ 调高空调 + 关窗)
- 辅助机器人:为老年人和残障人士提供身体辅助 + 认知辅助
- 手术机器人:基于 LLM 的手术规划和实时决策支持
具身 AI 应用评估维度
| 应用场景 | 任务复杂度 | 安全性要求 | Sim2Real 难度 | LLM 赋能程度 |
|---|---|---|---|---|
| 家庭服务机器人 | 高 | 高 | 中 | 高 |
| 工业机械臂操作 | 中 | 高 | 低(受控环境) | 中 |
| 仓储物流 | 中 | 中 | 低 | 中 |
| 自动驾驶 | 极高 | 极高 | 极高 | 中 |
| 辅助机器人 | 高 | 极高 | 高 | 高 |
| 手术机器人 | 极高 | 极高 | 极高 | 低 |
七、前沿方向与开放挑战
前沿方向
- 通用机器人基础模型(Robot Foundation Model):一个模型掌握所有机器人技能,无需针对每个任务单独训练
- 具身世界模型:模型内部建立对物理世界的预测能力——能预测行动后果
- 人机协作(Human-Robot Collaboration):机器人不仅能执行指令,还能理解和预测人类意图
- 自我改进(Self-Improvement):在真实操作中自主收集数据、持续学习
开放挑战
- 数据稀缺:机器人操作数据远少于文本和图像数据——如何高效利用有限数据?
- 泛化边界:RT-2 的涌现泛化令人兴奋,但泛化的边界在哪里?超出训练分布太多会发生什么?
- 评估体系缺失:具身 AI 缺乏统一的评估基准——与 NLP 的 GLUE/SuperGLUE 不同,物理环境无法被标准化
- 计算与实时性:540B 参数的 PaLM-E 推理延迟可能高达数秒——如何满足实时控制需求?
- 可解释性:当机器人做出危险行动时,我们能否知道它"为什么"这样做?
关键概念总结
| 概念 | 定义 |
|---|---|
| 具身 AI | 拥有物理身体、能在真实环境中感知→推理→行动的智能体 |
| 具身假设 | 智能不能仅通过符号处理实现,物理交互是智能的必要组成部分 |
| SayCan | 将 LLM(Say)与价值函数(Can)结合实现可执行的机器人规划 |
| PaLM-E | 将传感器数据编码为 token 的具身多模态大模型 |
| RT-2 | 将机器人行动编码为文本 token 的视觉-语言-行动统一模型 |
| Sim2Real Gap | 仿真环境与真实环境之间的差异导致模型迁移性能下降 |
| 域随机化 | 在仿真训练中随机化物理/视觉参数使模型适应真实世界 |
| Code as Policies | 让 LLM 生成机器人控制代码作为可执行规划 |
讨论问题
- 具身假设是否意味着当前 LLM 的"理解"在根本上是不完整的?你怎么看符号主义与具身认知的争论?
- RT-2 的涌现泛化能力令人印象深刻——你如何设计实验来验证其泛化边界?
- Sim2Real 的本质问题是"仿真够不像真实",还是"真实世界的变化太多样"?
- 具身 AI 的安全问题比纯语言模型严重得多——现有的对齐方法(RLHF、安全约束)是否足够应对物理风险?
- 如果让你设计一个"通用家务机器人",你会选择 SayCan 式的 skill 组合方案,还是 RT-2 式的端到端方案?为什么?
延伸阅读
- 必读:PaLM-E: An Embodied Multimodal Language Model — 具身多模态大模型的诞生
- 必读:RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control — 互联网知识迁移到机器人
- 必读:Do As I Can, Not As I Say: Grounding Language in Robotic Affordances (SayCan) — SayCan 原文
- 推荐:Code as Policies: Language Model Programs for Embodied Control — CaP 以代码作为策略
- 推荐:Generalization in Robotics Using Domain Randomization — 域随机化综述
- 扩展:On the Opportunities and Risks of Foundation Models (Chapter: Robotics) — 基础模型的机器人方向分析
相关笔记
- [[04-大模型/04-01-大模型基础|大模型基础]] — LLM 是具身 AI 的大脑
- [[04-大模型/04-02-多模态大模型|多模态大模型]] — PaLM-E 和 RT-2 的多模态基础
- [[04-大模型/04-03-推理与规划|推理与规划]] — 从语言推理到物理规划的扩展
- [[05-人机交互/05-01-交互界面设计|交互界面设计]] — 人机交互的不同范式
- [[MOC-如何AI一切|🗺️ 返回内容地图]]
