交互①：人机交互导论

⭐ 核心路径 — 当 AI 从"生成答案"走向"持续协作"，交互设计就不再是锦上添花，而是决定 AI 系统能否创造真实价值的核心能力。本讲覆盖从全自动到全手动的交互光谱、AI 智能体与 AI 工具的对比、人机交互设计模式，以及生成式 AI 带来的用户体验新挑战。

核心观点：人机交互的核心问题不是"AI 能否独立完成任务"，而是 "如何在人机之间动态分配控制权"——让 AI 做 AI 擅长的事，让人做人擅长的事，并在不确定性发生时保持流畅的切换。

1. 人机交互的光谱：从全自动到全手动

核心观点

[人机交互的本质是一道控制权分配的光谱——选择何种交互模式取决于任务特性、AI 能力上限和人类意图的清晰度]

人机交互不是"要么全自动、要么全手动"的二元选择，而是在以下光谱上连续分布：

全自动系统 ──── 共享自主权 ──── AI 辅助 ──── 全手动操作
   ▲                                ▲              ▲
   │                                │              │
 自动驾驶、                     AI 代码补全、    计算器、
 自动内容审核                   AI 决策建议      传统软件工具

交互范式	控制权分配	典型应用	代表研究
全自动	AI 独立决策，人类仅做异常监督	内容审核、垃圾邮件过滤	异常检测
可配置自动	AI 执行，人类可调整规则和参数	推荐系统、智能路由	人机配置界面
共享自主权	AI 主动建议 + 人类确认/否决	医疗诊断辅助、写作助手	Shared Autonomy (Jain et al., RSS 2020)
AI 辅助	AI 被动响应，人类主导决策	搜索引擎、AI 问答	Mixed-initiative 系统
全手动	AI 仅为工具，人类完全控制	计算器、代码 IDE	传统 HCI 工具

关键洞察：光谱的移动

AI 能力提升使得光谱上的边界持续左移——原先需要全手动操作的任务（如撰写文案），现在 AI 已能承担大部分工作。但关键问题是：人类是否信任 AI 在某个任务上独立运行？这取决于：

任务风险：低风险（内容推荐）→ 可全自动；高风险（医疗诊断）→ 需要共享控制
AI 可靠性：成熟技术 → 可放手；探索技术 → 保留监督
人类经验度：专家用户 → 偏好手动；新手用户 → 倾向 AI 辅助

2. AI 工具 vs AI 智能体

核心观点

["工具"与"智能体"代表了两种设计哲学：工具增强人类能力，智能体替代人类劳动——选择取决于用户意图的明确性和任务的可结构化程度]

这是当前 AI 交互设计中最重要的区分之一：

维度	AI 工具	AI 智能体
控制模式	人类发起、AI 响应	AI 主动规划、人类监督
用户角色	操作者（Operator）	监督者（Supervisor）
AI 角色	执行器	决策者 + 执行器
典型交互	输入 prompt → 输出结果	给定目标 → AI 自主规划 → 定期汇报
适用场景	任务明确、输出可验证	目标模糊、需多步推理
代表系统	ChatGPT (prompt → 回答)	AutoGPT、Devin (目标 → 行动)
信任需求	低——用户可以即时验证	高——需要信任 AI 的中间决策
失败模式	用户输入不当时产生错误	AI 规划偏离目标、累积错误

自动化 vs 增强

Ben Shneiderman（现代 HCI 之父）在其 Human-Centered AI（2022）中提出了关键区分：

自动化（Automation）
    目标：用 AI 替代人类完成重复性任务
    衡量：效率提升、人力节省
    风险：人类技能退化、去技能化

增强（Augmentation）
    目标：用 AI 增强人类能力而非替代
    衡量：人类决策质量提升、创造力释放
    风险：过度依赖、认知卸载

Shneiderman 的核心主张：AI 系统的设计目标应该是增强而不是替代——尤其是在需要人类判断力、创造力、道德推理的领域。

何时选择工具 vs 智能体

任务特性
    │
    ├─ 任务目标明确、有可验证的正确答案？
    │   ├─ 是 → 可用智能体模式（如 Deven 写代码）
    │   └─ 否 → 用工具模式（保留人类判断）
    │
    ├─ 任务需要人类价值观判断？
    │   ├─ 是 → 工具模式（人类在回路中）
    │   └─ 否 → 可考虑智能体模式
    │
    ├─ 错误容忍度高？
    │   ├─ 高 → 智能体模式（如内容摘要）
    │   └─ 低 → 工具模式（如医疗诊断）
    │
    └─ 用户对 AI 的熟悉度？
        ├─ 高 → 两者皆可
        └─ 低 → 工具模式起步

3. 人机交互设计模式

核心观点

[交互设计模式是经过验证的"最佳实践"模板——它们不是规则，但对于构建可用的 AI 系统来说，是比从头发明更好的起点]

3.1 Microsoft 18 条人机 AI 交互指南

微软研究院（Amershi et al., CHI 2019）提出了目前最具影响力的 AI 交互设计框架，涵盖 AI 系统的四个阶段：

阶段	编号	设计指南	简要说明
初期	1	明确系统的能力范围	让用户知道 AI 能做什么、不能做什么
	2	明确系统的当前状态	让用户知道 AI"在想什么"（进度、置信度）
交互中	3	引导用户如何与 AI 交互	提供示例输入、使用引导
	4	支持高效的纠错	用户可以快速修改 AI 的输出
	5	匹配社会规范	AI 的输出应符合语境和礼仪
	6	支持高效的调用	用户可以用最少的步骤完成操作
	7	管理 AI 的社交影响	不要让人误以为 AI 是真人
	8	平滑处理上下文切换	用户可以中断 AI 的流程
出错时	9	支持优雅的失败	AI 出错时提供有用的反馈而非沉默
	10	提供清晰的解释	解释 AI 为什么会出错
	11	允许用户覆盖或取消	用户应该可以否决 AI 的决策
	12	提供反馈机制	用户可以向系统报告问题
长期	13	适应用户行为	AI 应该逐渐学习用户的偏好
	14	鼓励渐进式学习	帮助用户更有效地使用系统
	15	避免刻板印象	不要不加判断地沿用数据中的偏见
	16	保护用户隐私	明确数据使用方式
	17	尊重用户选择	不要强迫用户使用 AI 功能
	18	支持群体规范	在多人场景中尊重社会规范

3.2 交互设计模式的分类

模式类别	模式名称	描述	案例
输入类	自然语言输入	用户用自然语言描述需求	ChatGPT prompt
	示例输入	用户提供示例让 AI 模仿	风格迁移、少数 shot 学习
	配置参数	用户调整参数控制 AI 行为	温度、Top-p、长度控制
	互动澄清	AI 在不确定时主动询问用户	ReAct 的 clarification 步骤
输出类	结构化输出	AI 以结构化形式呈现结果	JSON、表格、清单
	多方案建议	AI 给出多个选项让用户选择	文案生成提供多个版本
	渐进式披露	逐步展示信息避免信息过载	先摘要、再展开细节
	可视化解释	用视觉方式解释 AI 推理过程	GradCAM 热力图、思维链
控制类	确认机制	AI 在执行关键操作前要求确认	"您确定要删除吗？"
	撤销/回退	用户可以撤销 AI 的操作	版本历史、撤回
	覆盖/编辑	用户可以直接修改 AI 的输出	AI 写作后的手动编辑
	监督模式	AI 执行任务，人类监控状态	自动驾驶监控界面
反馈类	显式反馈	用户主动评价 AI 输出	👍/👎、评分、标注
	隐式反馈	系统从用户行为中推断偏好	点击、停留时间、编辑行为
	纠正反馈	用户直接修改错误让 AI 学习	对话编辑、重写建议
	人工标注	专业标注数据用于模型改进	RLHF 的偏好标注

4. 共享自主权（Shared Autonomy）

核心观点

[共享自主权的核心问题是"何时干预"——AI 需要在自主行动和请求人类协助之间做出动态权衡]

共享自主权（Shared Autonomy）是人机交互中一个关键的理论框架。它不是简单的"让 AI 做一部分、人做一部分"，而是研究如何在人机之间动态分配控制权。

控制权分配的维度

时间轴维度
├─ 事前分配：人类预先设定 AI 的自主程度（如设定自动驾驶等级）
├─ 实时分配：AI 根据实时情境动态调整自主程度
└─ 事后分配：人类在 AI 执行后审核和修正

信任维度
├─ 过度信任：人类过度依赖 AI，放松了必要的监督
└─ 信任不足：人类不信任 AI，持续干预导致系统失效

共享自主权的关键设计问题

问题	描述	设计策略
何时请求帮助	AI 应该何时主动寻求人类协助	基于置信度阈值、不确定性监测
如何请求帮助	AI 应该以什么形式请求协助	渐进式: 提示 → 建议 → 求助
何时接管控制	人类应该在何时从 AI 手中接管	异常检测、任务边界识别
如何平滑切换	控制权切换时如何保证体验流畅	预判切换、状态保存、回退机制
信任校准	如何让用户对 AI 能力的认知匹配实际能力	透明化进度和置信度
技能保持	如何防止人类在 AI 辅助下技能退化	主动提示、控制权训练

Shared Autonomy 的经典框架（Jain et al., RSS 2020）

Jain 等人提出的共享自主权框架使用深度强化学习来学习何时自主行动、何时请求人类辅助：

AI 的决策流程：
    1. 观察当前状态 s
    2. 评估自主行动的成功概率 p(success | s)
    3. 如果 p(success) > 阈值 → 自主执行
    4. 如果 p(success) < 阈值 → 请求人类帮助
    5. 人类提供帮助后，AI 继续执行后续步骤

核心贡献：将控制权分配转化为一个序贯决策问题——AI 不仅学习任务的执行策略，还学习"何时需要帮助"的元策略。

5. 生成式 AI 的用户体验挑战

核心观点

[生成式 AI 带来了全新的用户体验问题——非确定性输出、幻觉风险、意图对齐——这些挑战要求我们重新思考传统 HCI 的评估框架]

5.1 生成式 AI 与传统 UI 的根本区别

维度	传统 UI	生成式 AI
输出确定性	确定性的（固定行为）	非确定性的（每次可能不同）
用户预期	可预测的	不可预测的
错误模式	逻辑错误（点击错误按钮）	语义错误（生成不相关内容）
恢复方式	撤销（Undo）	重新生成（Regenerate）
评估标准	任务完成率、效率	输出质量、创造力、一致性
学习曲线	界面操作学习	提示工程学习
信任建立	基于可预测性	基于一致性 + 透明度

5.2 生成式 AI 的设计挑战

挑战	描述	缓解策略
意图对齐	用户难以准确表达期望输出	渐进式提示、示例引导、交互式修改
幻觉控制	AI 可能生成看似合理但错误的内容	引用溯源、事实核查提示、低温度采样
一致性维护	同一 prompt 在不同时间可能产生不同输出	种子随机数、温度控制、统一 prompt 模板
反馈机制	传统 "Undo/Redo" 在生成式 AI 中不适用	重新生成、选择性重写、版本比较
评估困难	生成式输出缺乏单一正确答案	人工评估（Eloc、Chatbot Arena）、多维评估
用户自主感	用户感觉失去对过程/结果的控制	提供引导参数、编辑入口、控制程度选择
信息过载	AI 一次生成过多内容	渐进式展开、重点摘要、分步输出

5.3 用户意图的迭代对齐

生成式 AI 的交互本质上是一个多轮迭代对齐的过程：

用户初始意图 ──→ prompt 表达 ──→ AI 生成输出 ──→ 用户评估 ──→ 修改需求
                                                          │
                                                          └── 重新生成 ──→ 达成一致

关键设计洞察：意图对齐很少能一次完成。有效的生成式 AI 交互系统应该：

支持快速迭代：降低 prompt 修改的成本
提供探索空间：用户可以试验不同 prompt/参数
保留历史版本：用户可以在变体之间来回比较
主动建议改进：AI 可以建议如何 prompt 会更好

这与 [[04-大模型/04-04-评估与对齐|大模型④：评估与对齐]] 中讨论的对齐问题一脉相承——只不过这里讨论的是交互层面的对齐（用户意图 vs 模型输出），而非价值观层面的对齐。

6. 人在回路系统（Human-in-the-loop）

核心观点

[人在回路不是简单的"加入人工审核步骤"，而是一个需要精心设计的人机协同系统——人类介入的时机、频率、方式和反馈质量都是设计变量]

人在回路的三种模式

静态回路：人类在固定节点介入
    数据准备 → 训练 → 评估 → 部署 → 监控
                      ↑
                  人工审核点

动态回路：AI 在不确定时主动请求人类
    观察 → 评估置信度 → [若置信度高] → 自主执行
                              ↓ [若置信度低]
                    → 请求人类协助 → 执行

闭环学习：人类反馈持续改善 AI
    输出 → 人类反馈 → 模型更新 → 改进输出 → ...

反馈循环设计

人类反馈的质量直接影响 AI 系统的学习效果。有效的反馈循环需要以下要素：

要素	描述	设计要点
反馈时机	何时收集反馈	交互中即时 vs 交互后回顾
反馈形式	如何收集反馈	显式（打分/标注）vs 隐式（行为）
反馈粒度	细粒度 vs 粗粒度	token 级 vs 输出级
反馈成本	用户提供反馈的精力	越简单越好（如一键 👍/👎）
反馈闭环	用户能否看到反馈的效果	显示"感谢反馈"并实际改进
反馈偏差	收集到的反馈是否有偏	极端用户偏差、沉默用户偏差

反馈循环的常见陷阱

反馈疲劳：频繁请求反馈导致用户厌倦
采样偏差：只收集愿意反馈的用户意见
即时 vs 延迟反馈：即时反馈可能不反映真实长期效果
反馈 Hack：用户学会"操纵"反馈以获得更好结果
冷启动：新产品缺乏初始反馈数据

7. 关键发现汇总

核心结论

交互光谱是连续而非离散的：从全自动到全手动之间存在丰富的交互模式，选择取决于任务风险、AI 可靠性和用户经验
工具 vs 智能体是设计哲学的选择：增强人类能力 vs 替代人类劳动——没有绝对的好坏，只有不同的适用场景
设计模式是经过验证的起点：微软 18 条指南和交互设计模式分类提供了构建 AI 系统的"最佳实践"模板
共享自主权需要动态控制分配：AI 不仅需要学习任务策略，还需要学习"何时需要帮助"的元策略
生成式 AI 重塑了交互范式：非确定性输出和意图对齐挑战要求我们重新定义"好的用户体验"的标准
人在回路需要精心设计：反馈的时机、形式、粒度和闭环机制直接影响 AI 学习效果

开放挑战

信任校准：如何让用户对 AI 能力的认知准确匹配实际能力？
技能退化：AI 辅助是否会导致人类关键技能退化？如何设计防退化机制？
评估体系：生成式 AI 的用户体验应该如何评估？现有 HCI 指标有效吗？
多模态交互：人机交互的最佳模态是什么？语言、视觉、触觉、还是多模态融合？
透明性与可解释性：AI 的"黑箱"特性与用户对透明性的需求如何平衡？

交互①：人机交互导论

目录

1. 人机交互的光谱：从全自动到全手动

核心观点

关键洞察：光谱的移动

2. AI 工具 vs AI 智能体

核心观点

自动化 vs 增强

何时选择工具 vs 智能体

3. 人机交互设计模式

核心观点

3.1 Microsoft 18 条人机 AI 交互指南

3.2 交互设计模式的分类

4. 共享自主权（Shared Autonomy）

核心观点

控制权分配的维度

共享自主权的关键设计问题

Shared Autonomy 的经典框架（Jain et al., RSS 2020）

5. 生成式 AI 的用户体验挑战

核心观点

5.1 生成式 AI 与传统 UI 的根本区别

5.2 生成式 AI 的设计挑战

5.3 用户意图的迭代对齐

6. 人在回路系统（Human-in-the-loop）

核心观点

人在回路的三种模式

反馈循环设计

反馈循环的常见陷阱

7. 关键发现汇总

核心结论

开放挑战

延伸阅读

相关笔记

交互①：人机交互导论 ​

目录 ​

1. 人机交互的光谱：从全自动到全手动 ​

核心观点 ​

关键洞察：光谱的移动 ​

2. AI 工具 vs AI 智能体 ​

核心观点 ​

自动化 vs 增强 ​

何时选择工具 vs 智能体 ​

3. 人机交互设计模式 ​

核心观点 ​

3.1 Microsoft 18 条人机 AI 交互指南 ​

3.2 交互设计模式的分类 ​

4. 共享自主权（Shared Autonomy） ​

核心观点 ​

控制权分配的维度 ​

共享自主权的关键设计问题 ​

Shared Autonomy 的经典框架（Jain et al., RSS 2020） ​

5. 生成式 AI 的用户体验挑战 ​

核心观点 ​

5.1 生成式 AI 与传统 UI 的根本区别 ​

5.2 生成式 AI 的设计挑战 ​

5.3 用户意图的迭代对齐 ​

6. 人在回路系统（Human-in-the-loop） ​

核心观点 ​

人在回路的三种模式 ​

反馈循环设计 ​

反馈循环的常见陷阱 ​

7. 关键发现汇总 ​

核心结论 ​

开放挑战 ​

延伸阅读 ​

相关笔记 ​

交互①：人机交互导论

目录

1. 人机交互的光谱：从全自动到全手动

核心观点

关键洞察：光谱的移动

2. AI 工具 vs AI 智能体

核心观点

自动化 vs 增强

何时选择工具 vs 智能体

3. 人机交互设计模式

核心观点

3.1 Microsoft 18 条人机 AI 交互指南

3.2 交互设计模式的分类

4. 共享自主权（Shared Autonomy）

核心观点

控制权分配的维度

共享自主权的关键设计问题

Shared Autonomy 的经典框架（Jain et al., RSS 2020）

5. 生成式 AI 的用户体验挑战

核心观点

5.1 生成式 AI 与传统 UI 的根本区别

5.2 生成式 AI 的设计挑战

5.3 用户意图的迭代对齐

6. 人在回路系统（Human-in-the-loop）

核心观点

人在回路的三种模式

反馈循环设计

反馈循环的常见陷阱

7. 关键发现汇总

核心结论

开放挑战

延伸阅读

相关笔记