Skip to content

⭐ 交互②:具身 AI

核心路径 — 具身 AI(Embodied AI)将大模型的能力从数字世界延伸到物理世界。从 PaLM-E 到 RT-2,AI 正在学会"动手"——通过感知、推理和行动在真实环境中完成任务。

学习目标

完成本讲后,你应该能够:

  1. 解释 具身假设(Embodiment Hypothesis)及其对 AI 研究的根本意义
  2. 描述 PaLM-E、SayCan、RT-2 三种具身 AI 模型的架构差异与演进关系
  3. 分析 sim2real 迁移的核心挑战及当前应对策略
  4. 评估 大模型赋能机器人后带来的新能力与新风险
  5. 列举 具身 AI 在真实世界中的主要应用场景

一、具身 AI:概念与假设

什么是具身 AI?

具身 AI(Embodied AI) 指拥有物理身体、能够在真实环境中**感知(Perceive)→ 推理(Reason)→ 行动(Act)**的智能体。与纯语言模型在数字空间中处理符号不同,具身 AI 必须应对物理世界的复杂性。

纯语言模型:     文本输入 → 推理 → 文本输出

具身 AI:    传感器输入 → 推理 → 物理行动 → 环境反馈 → 更新感知...

                   连续交互闭环(感知-行动循环)

具身假设

具身假设(Embodiment Hypothesis) 认为:智能不能仅通过符号处理实现——物理交互是智能的必要组成部分。

这一假设挑战了经典 AI 的"符号主义"传统(Newell & Simon 的物理符号系统假设)。其核心论据包括:

论据解释经典支撑
意义 grounded概念必须锚定在物理体验中才能获得真实意义Harnad (1990) "符号锚定问题"
交互塑造认知智能通过与环境持续交互而涌现,而非静态推理Brooks (1991) "包容架构"
感知-行动耦合感知和行动不是独立的认知模块,而是紧密耦合的闭环Gibson (1979) "直接知觉"
身体约束身体的物理形态决定了感知和行动的可能范围Pfeifer & Bongard "如何让身体塑造大脑"

具身假设的强形式甚至认为:没有物理身体的 AI 不可能达到人类级别的理解——因为"理解"从根本上依赖于物理体验。[[04-大模型/04-01-大模型基础|LLM 仅靠文本训练]]是否能真正"理解"世界,正是这一争论在当代的延续。

为什么 LLM 需要具身?

大语言模型在推理、对话、代码生成上表现出色,但它们面临一个根本局限:

LLM 知道"晴天的定义",但从未见过阳光
LLM 知道"苹果的味道",但从未尝过苹果
LLM 知道"推门的物理原理",但无法判断该推还是拉

LLM 的知识是通过文本间接获取的,缺乏物理世界的验证与纠错。具身 AI 补上了这一环——让模型在真实交互中学习、验证和更新知识。


二、从 LLM 到物理行动

核心挑战

将 LLM 的知识迁移到物理行动需要解决三个关键问题:

  1. 语言 → 运动:将自然语言指令翻译为连续的机器人控制信号
  2. 语义理解 → 物理可行性:知道"该做什么"不等于"能做什么"
  3. 感知 → 行动:从视觉传感器输入到机械臂的精确运动

2.1 SayCan:语言 + 可行性

SayCan(Ahn et al., 2023, Google Robotics)是首将 LLM 用于机器人规划的代表作。其核心设计巧妙地结合了 LLM 的语义知识和价值函数的物理约束。

架构

用户指令:"把可乐拿给我"

    ↓ Say(语言层面)
LLM 将指令分解为子任务序列:
  ① 走到冰箱 → ② 打开冰箱门 → ③ 拿起可乐 → ④ 交给我

    ↓ Can(物理层面)
价值函数评估每个子任务的可行性:
  ① "走到冰箱" → 可行性 0.95 ✅
  ② "打开冰箱门" → 可行性 0.42 🤔(夹爪可能够不到)
  ③ "拿起可乐" → 可行性 0.88 ✅
  ④ "交给我" → 可行性 0.91 ✅

    ↓ 结合语义 + 可行性
选择最优的可行子任务执行...

关键洞察

组件功能技术实现
Say(LLM)知道"该做什么"——语义上合理的任务分解PaLM 540B 或类似 LLM
Can(价值函数)知道"能做什么"——当前机器人能力的可行性评估语言条件价值函数(LCVF),从机器人经验中学习
规划器将两者的输出结合,选择最优行动加权和 + 贪心选择

SayCan 的核心贡献是证明了:LLM 的抽象知识 + 机器人的具体能力 = 可执行的高层规划。这一点与 [[04-大模型/04-03-推理与规划|推理与规划]] 中讨论的 ReAct 方法一脉相承,但 SayCan 将推理从数字世界延伸到了物理世界。

局限

  • SayCan 只能选择预定义的技能(skils),无法生成全新的运动模式
  • 依赖人工标注的技能库
  • 高层推理与低层控制之间仍有鸿沟

2.2 PaLM-E:具身多模态大模型

PaLM-E(Driess et al., 2023, Google Robotics)是"具身 MLLM"的开创之作。它将机器人的连续传感器数据(视觉、力觉、本体感觉)直接嵌入 LLM 的 token 空间。

架构

PaLM-E = PaLM (540B) + 多模态编码器 + 具身 token

输入模态整合:
  ┌─ 文本 token ─┐
  ├─ 图像 token  ─┤ → 单一联合 token 序列 → PaLM → 文本/行动输出
  ├─ 状态 token  ─┤
  └─ 神经 3D 表征 ┘

核心创新:

  1. 具身 token(Embodied Token):将机器人的传感器读数编码为 token,与文本 token 拼接
  2. 多模态联合推理:同一模型在同一序列中对文本、图像、传感器数据进行推理
  3. 直接输出行动:不仅输出文本计划,还能输出机器人控制信号

关键能力

能力描述示例
视觉-语言-行动联合推理在一个前向传播中完成"看-想-做""拿起蓝色方块" → 定位方块 → 规划抓取轨迹 → 执行
主动感知(Active Perception)为获取更多信息而移动"我看不清标籤" → 移动视角 → 重新识别
故障恢复在失败时自主重新规划"方块滑落了" → 重新抓取
长期规划多步骤任务分解 + 执行"准备沙拉" → 15 步分解 → 逐步执行

PaLM-E 证明了将 LLM 扩展到具身领域的可行性:540B 参数的 LLM 不仅可以"思考",还可以"看"和"做"

2.3 RT-2:视觉-语言-行动统一模型

RT-2(Brohan et al., 2023, Google DeepMind)是 Google 机器人 Transformer 系列的第三代,它采取了更为激进的方案:将机器人行动直接表示为文本 token

核心思想

RT-2 将机器人行动编码为文本 token:

行动:移动机械臂到 (0.2, 0.5, 0.3)
编码:<action_x_0.2> <action_y_0.5> <action_z_0.3>

→ 这样,机器人行动就可以像文本 token 一样被预测

RT-2 的训练数据混合了:

  • 互联网级视觉-语言数据:数十亿图文对(与 PaLM-E、PaLM 共用)
  • 机器人操作数据:来自实验室的真实机器人轨迹

涌现能力

训练后,RT-2 展现出了令人惊讶的涌现能力——即使训练数据中从未出现某些物体或指令,RT-2 仍能正确操作:

涌现能力训练数据中是否有实际表现
捡起"灭绝的动物"正确捡起了恐龙玩具 ✅
将"火箭"放入"垃圾桶"正确识别并执行 ✅
根据品牌 logo 移动相应饮料正确区分百事可乐和可口可乐 ✅

三模型演进对比

维度SayCan (2023.04)PaLM-E (2023.03)RT-2 (2023.07)
核心思想LLM + 价值函数融合具身传感器作为 token行动编码为文本 token
行动表示选择预定义技能可输出连续控制离散化为文本 token
训练数据机器人经验 + LLM互联网数据 + 机器人数据统一互联网 + 机器人数据
泛化能力低(技能模板受限)(涌现泛化)
架构复杂度低(两系统组合)高(多模态融合架构)中(标注的 seq2seq)

三、Sim2Real:从仿真到真实

核心问题

在机器人学习中,训练通常在**仿真(Sim)环境中进行(安全、快速、可大规模并行),但目标部署在真实(Real)**世界。两者之间的差距被称为 Sim2Real Gap

Sim2Real 挑战

挑战类别具体问题描述典型应对策略
物理参数差异摩擦力、惯性、质量仿真器的物理参数永远无法完美模拟真实域随机化(Domain Randomization):在训练时随机化物理参数
感知差异视觉渲染 vs 真实图像仿真渲染的纹理、光照、材质与现实有差距域适应(Domain Adaptation):GAN / 风格迁移缩小视觉差异
动态差异接触动力学碰撞、抓取、摩擦等接触动力学高度非线性,难以准确建模系统辨识 + 在线自适应(Online Adaptation)
延迟差异控制延迟仿真中控制指令即时执行,真实机器人有传感器→计算→执行延迟延迟建模 + 鲁棒控制
分布外泛化训练 vs 测试分布偏移真实世界的物体位置、种类、光照等无穷变化数据增强 + 大规模域随机化
评估瓶颈真实评估成本高仿真中可百万次评估,真实世界每步都花费物理时间和维护课程学习 + 渐进式部署
安全问题故障模式仿真中碰撞无害,真实中会损坏机器人或环境安全约束 + 动作限制 + 碰撞检测回退

域随机化(Domain Randomization)

域随机化是目前应对 Sim2Real 最有效的策略之一。其核心思想是:在仿真训练中随机化所有可能变化的参数,使模型学会应对各种情况——这样真实世界看起来只是"另一种随机化"

域随机化涉及的参数:
  视觉:光照角度、颜色温度、纹理、相机位置、背景
  物理:摩擦力系数、质量、惯性矩、弹簧阻尼
  形态:机器人关节长度、传感器噪声、执行器延迟
  任务:物体初始位置、目标位置、障碍物配置

最新进展

  • Isaac Gym / MuJoCo / SAPIEN 等高性能物理仿真器 + GPU 并行大幅加速 Sim2Real
  • DiffPhysics(可微分物理引擎)使仿真物理参数可以通过梯度下降自动优化
  • Foundation Models as Simulator:直接用 LLM/VLM 模拟环境反馈,跳过了"物理仿真"环节(如 Inner Monologue)

四、长期任务规划与推理

具身场景下的规划挑战

相比纯语言推理,具身 AI 的规划面临额外挑战:

挑战描述对比纯语言推理(如 CoT)
状态不确定性传感器噪声导致对当前状态的置信度有限符号推理中状态完全可观测
行动后果不确定性物理行动可能失败(滑落、偏转、碰撞)符号行动总是"成功"
长期依赖一个 100 步任务中,早期错误会累积到不可恢复语言推理可随时修正
时间约束某些行动必须在时间窗口内完成无时间概念
资源约束电池、物理空间、机械磨损等硬件限制无资源概念

Code as Policies(CaP)

CaP(Liang et al., 2023)是解决长期规划的一种优雅方法:让 LLM 生成机器人控制代码而非自然语言规划。

Prompt: "把桌上的方块叠放到杯子旁边"

LLM 生成:
def pick_and_place():
    block = get_block_location("cube")       # 感知
    cup = get_cup_location("red_cup")         # 感知
    move_to(block)                            # 移动
    grasp()                                   # 抓取
    move_to((cup.x + 0.1, cup.y, cup.z + 0.2)) # 放置
    release()                                 # 释放
    
    # 检查是否成功
    if not check_grasp("cube"):
        retry_grasp()                         # 自主恢复

CaP 的关键优势:

  • 代码 = 可执行 + 可组合 + 可调试的规划
  • 可以利用编程结构(循环、条件、函数)表达复杂行为
  • LLM 在代码生成上的强大能力可以直接服务于机器人

五、安全与对齐

物理世界的安全挑战

具身 AI 的安全问题比纯语言模型更严重——因为错误不再只是"错误的文本",而是可能造成物理损害。

风险类别示例严重程度
物理伤害机械臂撞击人体、移动机器人撞倒行人🔴 致命
财产损失夹持力度过大压碎物体、碰撞损坏物品🟠 高
环境破坏自动驾驶失控撞击护栏、无人机坠落🟠 高
操作失败抓取失败导致物料散落、门未关好🟡 中
任务偏差清洁机器人将贵重物品当作垃圾扔掉🟡 中

对齐策略

  1. 硬约束(Hard Constraints):在控制层设置不可违反的安全界限(如最大力、速度、空间边界)
  2. 奖励塑形(Reward Shaping):在 RL 训练中加入安全惩罚项
  3. 关停开关(Kill Switch):人类随时可以中断操作——最简单的安全保障
  4. 不确定性感知(Uncertainty-Aware):当模型对行动后果不确定时,主动请求人类确认
  5. 约束型 LLM 规划:在 LLM 规划阶段的 prompt 中注入安全约束,如 "Do not attempt actions that could harm humans"

六、应用场景

机器人操作

  • 家庭服务:SayCan / RT-2 在厨房操作中的演示——取物、清洁、整理
  • 工业制造:基于 LLM 的柔性制造——机器人根据自然语言指令快速切换制造任务
  • 仓储物流:订单拣选、包裹分拣——Amazon Robotics + LLM 导航

自动驾驶

  • 感知:视觉 + 语言统一模型(如 DriveGPT-4)理解复杂交通场景
  • 规划:LLM 处理罕见场景、路标阅读、交警手势理解
  • V2X 通信:车辆与基础设施的语言级通信

智能环境

  • 智能家居:通过自然语言控制全屋设备,并能理解隐式需求("我冷了"→ 调高空调 + 关窗)
  • 辅助机器人:为老年人和残障人士提供身体辅助 + 认知辅助
  • 手术机器人:基于 LLM 的手术规划和实时决策支持

具身 AI 应用评估维度

应用场景任务复杂度安全性要求Sim2Real 难度LLM 赋能程度
家庭服务机器人
工业机械臂操作低(受控环境)
仓储物流
自动驾驶极高极高极高
辅助机器人极高
手术机器人极高极高极高

七、前沿方向与开放挑战

前沿方向

  1. 通用机器人基础模型(Robot Foundation Model):一个模型掌握所有机器人技能,无需针对每个任务单独训练
  2. 具身世界模型:模型内部建立对物理世界的预测能力——能预测行动后果
  3. 人机协作(Human-Robot Collaboration):机器人不仅能执行指令,还能理解和预测人类意图
  4. 自我改进(Self-Improvement):在真实操作中自主收集数据、持续学习

开放挑战

  • 数据稀缺:机器人操作数据远少于文本和图像数据——如何高效利用有限数据?
  • 泛化边界:RT-2 的涌现泛化令人兴奋,但泛化的边界在哪里?超出训练分布太多会发生什么?
  • 评估体系缺失:具身 AI 缺乏统一的评估基准——与 NLP 的 GLUE/SuperGLUE 不同,物理环境无法被标准化
  • 计算与实时性:540B 参数的 PaLM-E 推理延迟可能高达数秒——如何满足实时控制需求?
  • 可解释性:当机器人做出危险行动时,我们能否知道它"为什么"这样做?

关键概念总结

概念定义
具身 AI拥有物理身体、能在真实环境中感知→推理→行动的智能体
具身假设智能不能仅通过符号处理实现,物理交互是智能的必要组成部分
SayCan将 LLM(Say)与价值函数(Can)结合实现可执行的机器人规划
PaLM-E将传感器数据编码为 token 的具身多模态大模型
RT-2将机器人行动编码为文本 token 的视觉-语言-行动统一模型
Sim2Real Gap仿真环境与真实环境之间的差异导致模型迁移性能下降
域随机化在仿真训练中随机化物理/视觉参数使模型适应真实世界
Code as Policies让 LLM 生成机器人控制代码作为可执行规划

讨论问题

  1. 具身假设是否意味着当前 LLM 的"理解"在根本上是不完整的?你怎么看符号主义与具身认知的争论?
  2. RT-2 的涌现泛化能力令人印象深刻——你如何设计实验来验证其泛化边界?
  3. Sim2Real 的本质问题是"仿真够不像真实",还是"真实世界的变化太多样"?
  4. 具身 AI 的安全问题比纯语言模型严重得多——现有的对齐方法(RLHF、安全约束)是否足够应对物理风险?
  5. 如果让你设计一个"通用家务机器人",你会选择 SayCan 式的 skill 组合方案,还是 RT-2 式的端到端方案?为什么?

延伸阅读

相关笔记

  • [[04-大模型/04-01-大模型基础|大模型基础]] — LLM 是具身 AI 的大脑
  • [[04-大模型/04-02-多模态大模型|多模态大模型]] — PaLM-E 和 RT-2 的多模态基础
  • [[04-大模型/04-03-推理与规划|推理与规划]] — 从语言推理到物理规划的扩展
  • [[05-人机交互/05-01-交互界面设计|交互界面设计]] — 人机交互的不同范式
  • [[MOC-如何AI一切|🗺️ 返回内容地图]]

基于 MIT MAS.S60 How to AI (Almost) Anything 翻译改编