Skip to content

交互①:人机交互导论

核心路径 — 当 AI 从"生成答案"走向"持续协作",交互设计就不再是锦上添花,而是决定 AI 系统能否创造真实价值的核心能力。本讲覆盖从全自动到全手动的交互光谱、AI 智能体与 AI 工具的对比、人机交互设计模式,以及生成式 AI 带来的用户体验新挑战。

核心观点:人机交互的核心问题不是"AI 能否独立完成任务",而是 "如何在人机之间动态分配控制权"——让 AI 做 AI 擅长的事,让人做人擅长的事,并在不确定性发生时保持流畅的切换。


目录


1. 人机交互的光谱:从全自动到全手动

核心观点

[人机交互的本质是一道控制权分配的光谱——选择何种交互模式取决于任务特性、AI 能力上限和人类意图的清晰度]

人机交互不是"要么全自动、要么全手动"的二元选择,而是在以下光谱上连续分布:

全自动系统 ──── 共享自主权 ──── AI 辅助 ──── 全手动操作
   ▲                                ▲              ▲
   │                                │              │
 自动驾驶、                     AI 代码补全、    计算器、
 自动内容审核                   AI 决策建议      传统软件工具
交互范式控制权分配典型应用代表研究
全自动AI 独立决策,人类仅做异常监督内容审核、垃圾邮件过滤异常检测
可配置自动AI 执行,人类可调整规则和参数推荐系统、智能路由人机配置界面
共享自主权AI 主动建议 + 人类确认/否决医疗诊断辅助、写作助手Shared Autonomy (Jain et al., RSS 2020)
AI 辅助AI 被动响应,人类主导决策搜索引擎、AI 问答Mixed-initiative 系统
全手动AI 仅为工具,人类完全控制计算器、代码 IDE传统 HCI 工具

关键洞察:光谱的移动

AI 能力提升使得光谱上的边界持续左移——原先需要全手动操作的任务(如撰写文案),现在 AI 已能承担大部分工作。但关键问题是:人类是否信任 AI 在某个任务上独立运行?这取决于:

  1. 任务风险:低风险(内容推荐)→ 可全自动;高风险(医疗诊断)→ 需要共享控制
  2. AI 可靠性:成熟技术 → 可放手;探索技术 → 保留监督
  3. 人类经验度:专家用户 → 偏好手动;新手用户 → 倾向 AI 辅助

2. AI 工具 vs AI 智能体

核心观点

["工具"与"智能体"代表了两种设计哲学:工具增强人类能力,智能体替代人类劳动——选择取决于用户意图的明确性和任务的可结构化程度]

这是当前 AI 交互设计中最重要的区分之一:

维度AI 工具AI 智能体
控制模式人类发起、AI 响应AI 主动规划、人类监督
用户角色操作者(Operator)监督者(Supervisor)
AI 角色执行器决策者 + 执行器
典型交互输入 prompt → 输出结果给定目标 → AI 自主规划 → 定期汇报
适用场景任务明确、输出可验证目标模糊、需多步推理
代表系统ChatGPT (prompt → 回答)AutoGPT、Devin (目标 → 行动)
信任需求低——用户可以即时验证高——需要信任 AI 的中间决策
失败模式用户输入不当时产生错误AI 规划偏离目标、累积错误

自动化 vs 增强

Ben Shneiderman(现代 HCI 之父)在其 Human-Centered AI(2022)中提出了关键区分:

自动化(Automation)
    目标:用 AI 替代人类完成重复性任务
    衡量:效率提升、人力节省
    风险:人类技能退化、去技能化

增强(Augmentation)
    目标:用 AI 增强人类能力而非替代
    衡量:人类决策质量提升、创造力释放
    风险:过度依赖、认知卸载

Shneiderman 的核心主张:AI 系统的设计目标应该是增强而不是替代——尤其是在需要人类判断力、创造力、道德推理的领域。

何时选择工具 vs 智能体

任务特性

    ├─ 任务目标明确、有可验证的正确答案?
    │   ├─ 是 → 可用智能体模式(如 Deven 写代码)
    │   └─ 否 → 用工具模式(保留人类判断)

    ├─ 任务需要人类价值观判断?
    │   ├─ 是 → 工具模式(人类在回路中)
    │   └─ 否 → 可考虑智能体模式

    ├─ 错误容忍度高?
    │   ├─ 高 → 智能体模式(如内容摘要)
    │   └─ 低 → 工具模式(如医疗诊断)

    └─ 用户对 AI 的熟悉度?
        ├─ 高 → 两者皆可
        └─ 低 → 工具模式起步

3. 人机交互设计模式

核心观点

[交互设计模式是经过验证的"最佳实践"模板——它们不是规则,但对于构建可用的 AI 系统来说,是比从头发明更好的起点]

3.1 Microsoft 18 条人机 AI 交互指南

微软研究院(Amershi et al., CHI 2019)提出了目前最具影响力的 AI 交互设计框架,涵盖 AI 系统的四个阶段:

阶段编号设计指南简要说明
初期1明确系统的能力范围让用户知道 AI 能做什么、不能做什么
2明确系统的当前状态让用户知道 AI"在想什么"(进度、置信度)
交互中3引导用户如何与 AI 交互提供示例输入、使用引导
4支持高效的纠错用户可以快速修改 AI 的输出
5匹配社会规范AI 的输出应符合语境和礼仪
6支持高效的调用用户可以用最少的步骤完成操作
7管理 AI 的社交影响不要让人误以为 AI 是真人
8平滑处理上下文切换用户可以中断 AI 的流程
出错时9支持优雅的失败AI 出错时提供有用的反馈而非沉默
10提供清晰的解释解释 AI 为什么会出错
11允许用户覆盖或取消用户应该可以否决 AI 的决策
12提供反馈机制用户可以向系统报告问题
长期13适应用户行为AI 应该逐渐学习用户的偏好
14鼓励渐进式学习帮助用户更有效地使用系统
15避免刻板印象不要不加判断地沿用数据中的偏见
16保护用户隐私明确数据使用方式
17尊重用户选择不要强迫用户使用 AI 功能
18支持群体规范在多人场景中尊重社会规范

3.2 交互设计模式的分类

模式类别模式名称描述案例
输入类自然语言输入用户用自然语言描述需求ChatGPT prompt
示例输入用户提供示例让 AI 模仿风格迁移、少数 shot 学习
配置参数用户调整参数控制 AI 行为温度、Top-p、长度控制
互动澄清AI 在不确定时主动询问用户ReAct 的 clarification 步骤
输出类结构化输出AI 以结构化形式呈现结果JSON、表格、清单
多方案建议AI 给出多个选项让用户选择文案生成提供多个版本
渐进式披露逐步展示信息避免信息过载先摘要、再展开细节
可视化解释用视觉方式解释 AI 推理过程GradCAM 热力图、思维链
控制类确认机制AI 在执行关键操作前要求确认"您确定要删除吗?"
撤销/回退用户可以撤销 AI 的操作版本历史、撤回
覆盖/编辑用户可以直接修改 AI 的输出AI 写作后的手动编辑
监督模式AI 执行任务,人类监控状态自动驾驶监控界面
反馈类显式反馈用户主动评价 AI 输出👍/👎、评分、标注
隐式反馈系统从用户行为中推断偏好点击、停留时间、编辑行为
纠正反馈用户直接修改错误让 AI 学习对话编辑、重写建议
人工标注专业标注数据用于模型改进RLHF 的偏好标注

4. 共享自主权(Shared Autonomy)

核心观点

[共享自主权的核心问题是"何时干预"——AI 需要在自主行动和请求人类协助之间做出动态权衡]

共享自主权(Shared Autonomy)是人机交互中一个关键的理论框架。它不是简单的"让 AI 做一部分、人做一部分",而是研究如何在人机之间动态分配控制权

控制权分配的维度

时间轴维度
├─ 事前分配:人类预先设定 AI 的自主程度(如设定自动驾驶等级)
├─ 实时分配:AI 根据实时情境动态调整自主程度
└─ 事后分配:人类在 AI 执行后审核和修正

信任维度
├─ 过度信任:人类过度依赖 AI,放松了必要的监督
└─ 信任不足:人类不信任 AI,持续干预导致系统失效

共享自主权的关键设计问题

问题描述设计策略
何时请求帮助AI 应该何时主动寻求人类协助基于置信度阈值、不确定性监测
如何请求帮助AI 应该以什么形式请求协助渐进式: 提示 → 建议 → 求助
何时接管控制人类应该在何时从 AI 手中接管异常检测、任务边界识别
如何平滑切换控制权切换时如何保证体验流畅预判切换、状态保存、回退机制
信任校准如何让用户对 AI 能力的认知匹配实际能力透明化进度和置信度
技能保持如何防止人类在 AI 辅助下技能退化主动提示、控制权训练

Shared Autonomy 的经典框架(Jain et al., RSS 2020)

Jain 等人提出的共享自主权框架使用深度强化学习来学习何时自主行动、何时请求人类辅助:

AI 的决策流程:
    1. 观察当前状态 s
    2. 评估自主行动的成功概率 p(success | s)
    3. 如果 p(success) > 阈值 → 自主执行
    4. 如果 p(success) < 阈值 → 请求人类帮助
    5. 人类提供帮助后,AI 继续执行后续步骤

核心贡献:将控制权分配转化为一个序贯决策问题——AI 不仅学习任务的执行策略,还学习"何时需要帮助"的元策略。


5. 生成式 AI 的用户体验挑战

核心观点

[生成式 AI 带来了全新的用户体验问题——非确定性输出、幻觉风险、意图对齐——这些挑战要求我们重新思考传统 HCI 的评估框架]

5.1 生成式 AI 与传统 UI 的根本区别

维度传统 UI生成式 AI
输出确定性确定性的(固定行为)非确定性的(每次可能不同)
用户预期可预测的不可预测的
错误模式逻辑错误(点击错误按钮)语义错误(生成不相关内容)
恢复方式撤销(Undo)重新生成(Regenerate)
评估标准任务完成率、效率输出质量、创造力、一致性
学习曲线界面操作学习提示工程学习
信任建立基于可预测性基于一致性 + 透明度

5.2 生成式 AI 的设计挑战

挑战描述缓解策略
意图对齐用户难以准确表达期望输出渐进式提示、示例引导、交互式修改
幻觉控制AI 可能生成看似合理但错误的内容引用溯源、事实核查提示、低温度采样
一致性维护同一 prompt 在不同时间可能产生不同输出种子随机数、温度控制、统一 prompt 模板
反馈机制传统 "Undo/Redo" 在生成式 AI 中不适用重新生成、选择性重写、版本比较
评估困难生成式输出缺乏单一正确答案人工评估(Eloc、Chatbot Arena)、多维评估
用户自主感用户感觉失去对过程/结果的控制提供引导参数、编辑入口、控制程度选择
信息过载AI 一次生成过多内容渐进式展开、重点摘要、分步输出

5.3 用户意图的迭代对齐

生成式 AI 的交互本质上是一个多轮迭代对齐的过程:

用户初始意图 ──→ prompt 表达 ──→ AI 生成输出 ──→ 用户评估 ──→ 修改需求

                                                          └── 重新生成 ──→ 达成一致

关键设计洞察:意图对齐很少能一次完成。有效的生成式 AI 交互系统应该:

  1. 支持快速迭代:降低 prompt 修改的成本
  2. 提供探索空间:用户可以试验不同 prompt/参数
  3. 保留历史版本:用户可以在变体之间来回比较
  4. 主动建议改进:AI 可以建议如何 prompt 会更好

这与 [[04-大模型/04-04-评估与对齐|大模型④:评估与对齐]] 中讨论的对齐问题一脉相承——只不过这里讨论的是交互层面的对齐(用户意图 vs 模型输出),而非价值观层面的对齐。


6. 人在回路系统(Human-in-the-loop)

核心观点

[人在回路不是简单的"加入人工审核步骤",而是一个需要精心设计的人机协同系统——人类介入的时机、频率、方式和反馈质量都是设计变量]

人在回路的三种模式

静态回路:人类在固定节点介入
    数据准备 → 训练 → 评估 → 部署 → 监控

                  人工审核点

动态回路:AI 在不确定时主动请求人类
    观察 → 评估置信度 → [若置信度高] → 自主执行
                              ↓ [若置信度低]
                    → 请求人类协助 → 执行

闭环学习:人类反馈持续改善 AI
    输出 → 人类反馈 → 模型更新 → 改进输出 → ...

反馈循环设计

人类反馈的质量直接影响 AI 系统的学习效果。有效的反馈循环需要以下要素:

要素描述设计要点
反馈时机何时收集反馈交互中即时 vs 交互后回顾
反馈形式如何收集反馈显式(打分/标注)vs 隐式(行为)
反馈粒度细粒度 vs 粗粒度token 级 vs 输出级
反馈成本用户提供反馈的精力越简单越好(如一键 👍/👎)
反馈闭环用户能否看到反馈的效果显示"感谢反馈"并实际改进
反馈偏差收集到的反馈是否有偏极端用户偏差、沉默用户偏差

反馈循环的常见陷阱

  1. 反馈疲劳:频繁请求反馈导致用户厌倦
  2. 采样偏差:只收集愿意反馈的用户意见
  3. 即时 vs 延迟反馈:即时反馈可能不反映真实长期效果
  4. 反馈 Hack:用户学会"操纵"反馈以获得更好结果
  5. 冷启动:新产品缺乏初始反馈数据

7. 关键发现汇总

核心结论

  1. 交互光谱是连续而非离散的:从全自动到全手动之间存在丰富的交互模式,选择取决于任务风险、AI 可靠性和用户经验
  2. 工具 vs 智能体是设计哲学的选择:增强人类能力 vs 替代人类劳动——没有绝对的好坏,只有不同的适用场景
  3. 设计模式是经过验证的起点:微软 18 条指南和交互设计模式分类提供了构建 AI 系统的"最佳实践"模板
  4. 共享自主权需要动态控制分配:AI 不仅需要学习任务策略,还需要学习"何时需要帮助"的元策略
  5. 生成式 AI 重塑了交互范式:非确定性输出和意图对齐挑战要求我们重新定义"好的用户体验"的标准
  6. 人在回路需要精心设计:反馈的时机、形式、粒度和闭环机制直接影响 AI 学习效果

开放挑战

  • 信任校准:如何让用户对 AI 能力的认知准确匹配实际能力?
  • 技能退化:AI 辅助是否会导致人类关键技能退化?如何设计防退化机制?
  • 评估体系:生成式 AI 的用户体验应该如何评估?现有 HCI 指标有效吗?
  • 多模态交互:人机交互的最佳模态是什么?语言、视觉、触觉、还是多模态融合?
  • 透明性与可解释性:AI 的"黑箱"特性与用户对透明性的需求如何平衡?

延伸阅读

相关笔记

  • [[04-大模型/04-03-推理与规划|大模型③:推理与规划]] — LLM 推理与 ReAct 交互模式
  • [[04-大模型/04-04-评估与对齐|大模型④:评估与对齐]] — 对齐问题与人类反馈
  • [[05-人机交互/05-02-具身AI|交互②:具身AI]] — AI 与物理世界的交互
  • [[05-人机交互/05-03-本周阅读|第12-15周阅读]] — 核心论文阅读清单

[[MOC-如何AI一切|🗺️ 返回内容地图]]

基于 MIT MAS.S60 How to AI (Almost) Anything 翻译改编