AI 研究方法

⭐ 核心路径 — 培养独立开展 AI 研究所需的核心方法论

学习目标

完成本讲后，你应该能够：

掌握 AI 研究选题的通用方法论
使用 "浏览 → 精读 → 批判"的三阶段论文阅读策略
理解学术论文的结构和写作规范
设计可复现、可靠的 AI 实验流程
认识 AI 研究中的伦理问题和社会责任

一、如何产生研究想法

选题从哪里来？

不做跟风式研究。好的研究问题通常来自以下渠道：

来源	描述	示例
观察现实问题	从真实世界中发现 AI 尚未解决的痛点	医疗影像标注成本过高
跨模态迁移	将一个模态中的成功方法迁移到新模态	Transformer 从 NLP 到 CV 再到蛋白质
填补空白	阅读综述论文时发现的未探索方向	多模态交互的量化评估
失败启发	从已有方法的失败案例中寻找突破口	对比学习中负样本选择问题
工具驱动	新工具/新数据催生的新可能	扩散模型带来的可控生成
跨学科融合	AI + X 的交叉领域	计算社会科学、AI for Science

选题原则

好的研究选题应该满足 S.P.A.R.K. 准则：

Specific：问题具体、边界清晰
Pertinent：与某个领域/社区相关
Actionable：当前技术条件可尝试
Reproducible：结果可被他人验证
Key：解决后能带来实质性进展

选题陷阱

陷阱	描述	对策
过度乐观	低估问题难度	先做小规模可行性实验
跟风热门	大家都在做，差异化难找	找到自己独特的视角或数据
方向太宽	问题定义不清	反复缩小范围，直到可以动手实验
工具先行	先选工具再找问题	让问题驱动工具选择

二、如何读论文

三阶段阅读策略

不要从头到尾线性阅读。采用 Skim → Read → Critique 策略：

阶段一：浏览（Skim）— 约 5-10 分钟

快速判断此论文是否值得精读：

标题 + 摘要：核心信息——解决了什么问题，用了什么方法
引言：最后一段（通常包含贡献声明）
图表：关键结果和实验设计
结论：主要发现和未来工作

如果以上内容没有吸引力，果断放下这篇。

阶段二：精读（Read）— 约 30-60 分钟

通读全文，关注：

问题定义：目标是什么？输入输出是什么？评价指标是什么？
方法设计：核心创新点在哪里？和基线方法的关键区别？
实验设置：数据集、评估协议、消融实验设计
结果分析：是否支持作者的结论？控制变量了吗？

精读时可以做笔记（建议使用 Obsidian 或其他笔记工具），记录论文的核心信息和分析。

阶段三：批判（Critique）— 约 15-30 分钟

这是最有价值的阶段。提出关键问题：

假设是否合理？是否有潜在偏差？
实验是否完整？消融实验是否充分？
结果是否具有统计显著性？
论文是否回答了它提出的问题？
方法是否有泛化能力？对实际场景的假设是什么？
是否有更简单的方法能达到类似效果？

论文笔记模板

markdown

## 论文卡片

**标题**：
**作者/会议**：
**链接**：

### 核心贡献
- 
- 

### 方法概览

### 关键结果

### 我的批判
- 优点：
- 不足：
- 开放问题：

推荐使用 [[01-AI导论/01-03-本周阅读|本周阅读]] 中的论文进行练习。

三、如何写论文

论文的标准结构

AI/ML 领域主流论文通常遵循 IMRaC 结构：

部分	功能	"钩子"策略
标题 + 摘要	广告——吸引读者继续阅读	用一句话说清做了什么
引言	从大背景逐渐聚焦到具体问题	先强调问题的重要性，再指出空白
相关工作	定位——与已有工作对比	不罗列，要有机组织
方法	你的核心贡献	用公式/算法/框架图精确表达
实验	证明方法有效	全面、公平、可复现
结论	总结 + 展望	诚实总结局限性

写作原则

先搭骨架再填肉：先写大纲（outline），确认逻辑链完整再动笔
一图胜千言：好的框架图可以取代大段文字
削去废话：每个段落只传达一个核心信息
在上下文定义中：每次引入新概念都立即定义
复现优先：代码、数据、超参数全部开源

常见写作陷阱

过度承诺：引言说得天花乱坠，实验却无法支持
方法混用：训练和评估协议不清晰
基线选择偏颇：只和自己改良过的弱基线比较
选择性报告：只报告最好的结果，忽略均值/方差

从写作到发表

选会：根据工作性质选择合适会议（NeurIPS/ICML/CVPR/ACL/ICLR…）
Rebuttal：认真对待每条审稿意见，每有问必答，但不过度承诺
终版：按审稿人建议改进——但也保持自己的判断

四、AI 实验方法论

实验设计核心原则

控制变量 + 统计显著性 + 可复现性

原则	具体做法
控制变量	每次只改变一个因素，其余保持不变
多次运行	报告多次运行的均值和标准差，而非单次结果
固定随机种子	记录训练/评测用的所有随机种子
充分消融	逐一剥离各部分以验证其必要性
与强基线比较	不要只和弱基线比
资源报告	报告计算资源、训练时间等

调试深度学习模型

Andrej Karpathy 的"训练神经网络配方"（[[00-课程概览/教学大纲|教学大纲]] 中引用了原文）建议：

先从过拟合开始：在单 batch 上过拟合到零损失，确保正向传播/反向传播无误
可视化一切：损失曲线、梯度分布、激活分布、预测输出
逐步增加复杂性：从最简单的版本开始，逐步添加特性
对基线要诚实：如果简单基线就够好，承认它
怀疑自己的代码：bug 导致性能差的概率远高于方法有问题

可复现性检查清单

[ ] 代码和数据集已公开或准备公开
[ ] 所有超参数已记录（包括优化器、学习率、batch size、随机种子）
[ ] 实验结果可被独立验证
[ ] 有详细的 README 或文档说明如何复现
[ ] 使用版本控制（git）管理代码
[ ] 硬件环境信息已记录（GPU 型号、CUDA 版本等）

五、研究伦理

AI 研究中的常见伦理问题

数据隐私：训练数据是否包含个人信息？是否获得同意？
公平性：模型在不同人群中的表现是否存在显著差异？
透明度：模型决策是否可以解释？
环境影响：训练和部署模型的计算成本与碳排放
双重用途：研究成果可能被用于有害目的吗？
社会影响：自动化可能导致的就业变革和社会不平等

负责任研究的准则

透明报告：诚实地报告方法的局限性和失败案例
偏见审计：定期检查模型在敏感属性上的表现差异
知情同意：收集人类数据时获得知情同意
开源精神：促进 Open Science，分享代码、数据和模型
社会对话：保持与政策制定者、社会公众的对话

伦理议题将贯穿整个课程。在 [[05-人机交互/05-02-人机交互|人机交互]] 中我们会进一步讨论 AI 的安全性和可靠性。

关键概念

概念	定义
S.P.A.R.K. 准则	好研究选题的五条检验标准
Skim → Read → Critique	三阶段论文阅读策略
消融实验（Ablation）	逐一移除系统组件以衡量其贡献
控制变量	保持其他因素不变，只改变待测因素
可复现性	其他人的结果可以被独立验证的能力

讨论问题

你目前最想解决的 AI 研究问题是什么？用 S.P.A.R.K. 准则检验一下
找一篇你感兴趣的 AI 论文，在 10 分钟内完成"浏览"阶段——你学到了什么？
为什么可复现性在 AI 研究中如此重要，却又如此难以保证？
AI 研究者对技术的社会影响应该承担多大责任？

AI 研究方法

学习目标

一、如何产生研究想法

选题从哪里来？

选题原则

选题陷阱

二、如何读论文

三阶段阅读策略

阶段一：浏览（Skim）— 约 5-10 分钟

阶段二：精读（Read）— 约 30-60 分钟

阶段三：批判（Critique）— 约 15-30 分钟

论文笔记模板

三、如何写论文

论文的标准结构

写作原则

常见写作陷阱

从写作到发表

四、AI 实验方法论

实验设计核心原则

调试深度学习模型

可复现性检查清单

五、研究伦理

AI 研究中的常见伦理问题

负责任研究的准则

关键概念

讨论问题

延伸阅读

相关笔记

AI 研究方法 ​

学习目标 ​

一、如何产生研究想法 ​

选题从哪里来？ ​

选题原则 ​

选题陷阱 ​

二、如何读论文 ​

三阶段阅读策略 ​

阶段一：浏览（Skim）— 约 5-10 分钟 ​

阶段二：精读（Read）— 约 30-60 分钟 ​

阶段三：批判（Critique）— 约 15-30 分钟 ​

论文笔记模板 ​

三、如何写论文 ​

论文的标准结构 ​

写作原则 ​

常见写作陷阱 ​

从写作到发表 ​

四、AI 实验方法论 ​

实验设计核心原则 ​

调试深度学习模型 ​

可复现性检查清单 ​

五、研究伦理 ​

AI 研究中的常见伦理问题 ​

负责任研究的准则 ​

关键概念 ​

讨论问题 ​

延伸阅读 ​

相关笔记 ​

AI 研究方法

学习目标

一、如何产生研究想法

选题从哪里来？

选题原则

选题陷阱

二、如何读论文

三阶段阅读策略

阶段一：浏览（Skim）— 约 5-10 分钟

阶段二：精读（Read）— 约 30-60 分钟

阶段三：批判（Critique）— 约 15-30 分钟

论文笔记模板

三、如何写论文

论文的标准结构

写作原则

常见写作陷阱

从写作到发表

四、AI 实验方法论

实验设计核心原则

调试深度学习模型

可复现性检查清单

五、研究伦理

AI 研究中的常见伦理问题

负责任研究的准则

关键概念

讨论问题

延伸阅读

相关笔记