AI 研究方法
⭐ 核心路径 — 培养独立开展 AI 研究所需的核心方法论
学习目标
完成本讲后,你应该能够:
- 掌握 AI 研究选题的通用方法论
- 使用 "浏览 → 精读 → 批判"的三阶段论文阅读策略
- 理解 学术论文的结构和写作规范
- 设计 可复现、可靠的 AI 实验流程
- 认识 AI 研究中的伦理问题和社会责任
一、如何产生研究想法
选题从哪里来?
不做跟风式研究。好的研究问题通常来自以下渠道:
| 来源 | 描述 | 示例 |
|---|---|---|
| 观察现实问题 | 从真实世界中发现 AI 尚未解决的痛点 | 医疗影像标注成本过高 |
| 跨模态迁移 | 将一个模态中的成功方法迁移到新模态 | Transformer 从 NLP 到 CV 再到蛋白质 |
| 填补空白 | 阅读综述论文时发现的未探索方向 | 多模态交互的量化评估 |
| 失败启发 | 从已有方法的失败案例中寻找突破口 | 对比学习中负样本选择问题 |
| 工具驱动 | 新工具/新数据催生的新可能 | 扩散模型带来的可控生成 |
| 跨学科融合 | AI + X 的交叉领域 | 计算社会科学、AI for Science |
选题原则
好的研究选题应该满足 S.P.A.R.K. 准则:
- Specific:问题具体、边界清晰
- Pertinent:与某个领域/社区相关
- Actionable:当前技术条件可尝试
- Reproducible:结果可被他人验证
- Key:解决后能带来实质性进展
选题陷阱
| 陷阱 | 描述 | 对策 |
|---|---|---|
| 过度乐观 | 低估问题难度 | 先做小规模可行性实验 |
| 跟风热门 | 大家都在做,差异化难找 | 找到自己独特的视角或数据 |
| 方向太宽 | 问题定义不清 | 反复缩小范围,直到可以动手实验 |
| 工具先行 | 先选工具再找问题 | 让问题驱动工具选择 |
二、如何读论文
三阶段阅读策略
不要从头到尾线性阅读。采用 Skim → Read → Critique 策略:
阶段一:浏览(Skim)— 约 5-10 分钟
快速判断此论文是否值得精读:
- 标题 + 摘要:核心信息——解决了什么问题,用了什么方法
- 引言:最后一段(通常包含贡献声明)
- 图表:关键结果和实验设计
- 结论:主要发现和未来工作
如果以上内容没有吸引力,果断放下这篇。
阶段二:精读(Read)— 约 30-60 分钟
通读全文,关注:
- 问题定义:目标是什么?输入输出是什么?评价指标是什么?
- 方法设计:核心创新点在哪里?和基线方法的关键区别?
- 实验设置:数据集、评估协议、消融实验设计
- 结果分析:是否支持作者的结论?控制变量了吗?
精读时可以做笔记(建议使用 Obsidian 或其他笔记工具),记录论文的核心信息和分析。
阶段三:批判(Critique)— 约 15-30 分钟
这是最有价值的阶段。提出关键问题:
- 假设是否合理?是否有潜在偏差?
- 实验是否完整?消融实验是否充分?
- 结果是否具有统计显著性?
- 论文是否回答了它提出的问题?
- 方法是否有泛化能力?对实际场景的假设是什么?
- 是否有更简单的方法能达到类似效果?
论文笔记模板
markdown
## 论文卡片
**标题**:
**作者/会议**:
**链接**:
### 核心贡献
-
-
### 方法概览
### 关键结果
### 我的批判
- 优点:
- 不足:
- 开放问题:推荐使用 [[01-AI导论/01-03-本周阅读|本周阅读]] 中的论文进行练习。
三、如何写论文
论文的标准结构
AI/ML 领域主流论文通常遵循 IMRaC 结构:
| 部分 | 功能 | "钩子"策略 |
|---|---|---|
| 标题 + 摘要 | 广告——吸引读者继续阅读 | 用一句话说清做了什么 |
| 引言 | 从大背景逐渐聚焦到具体问题 | 先强调问题的重要性,再指出空白 |
| 相关工作 | 定位——与已有工作对比 | 不罗列,要有机组织 |
| 方法 | 你的核心贡献 | 用公式/算法/框架图精确表达 |
| 实验 | 证明方法有效 | 全面、公平、可复现 |
| 结论 | 总结 + 展望 | 诚实总结局限性 |
写作原则
- 先搭骨架再填肉:先写大纲(outline),确认逻辑链完整再动笔
- 一图胜千言:好的框架图可以取代大段文字
- 削去废话:每个段落只传达一个核心信息
- 在上下文定义中:每次引入新概念都立即定义
- 复现优先:代码、数据、超参数全部开源
常见写作陷阱
- 过度承诺:引言说得天花乱坠,实验却无法支持
- 方法混用:训练和评估协议不清晰
- 基线选择偏颇:只和自己改良过的弱基线比较
- 选择性报告:只报告最好的结果,忽略均值/方差
从写作到发表
- 选会:根据工作性质选择合适会议(NeurIPS/ICML/CVPR/ACL/ICLR…)
- Rebuttal:认真对待每条审稿意见,每有问必答,但不过度承诺
- 终版:按审稿人建议改进——但也保持自己的判断
四、AI 实验方法论
实验设计核心原则
控制变量 + 统计显著性 + 可复现性
| 原则 | 具体做法 |
|---|---|
| 控制变量 | 每次只改变一个因素,其余保持不变 |
| 多次运行 | 报告多次运行的均值和标准差,而非单次结果 |
| 固定随机种子 | 记录训练/评测用的所有随机种子 |
| 充分消融 | 逐一剥离各部分以验证其必要性 |
| 与强基线比较 | 不要只和弱基线比 |
| 资源报告 | 报告计算资源、训练时间等 |
调试深度学习模型
Andrej Karpathy 的"训练神经网络配方"([[00-课程概览/教学大纲|教学大纲]] 中引用了原文)建议:
- 先从过拟合开始:在单 batch 上过拟合到零损失,确保正向传播/反向传播无误
- 可视化一切:损失曲线、梯度分布、激活分布、预测输出
- 逐步增加复杂性:从最简单的版本开始,逐步添加特性
- 对基线要诚实:如果简单基线就够好,承认它
- 怀疑自己的代码:bug 导致性能差的概率远高于方法有问题
可复现性检查清单
- [ ] 代码和数据集已公开或准备公开
- [ ] 所有超参数已记录(包括优化器、学习率、batch size、随机种子)
- [ ] 实验结果可被独立验证
- [ ] 有详细的 README 或文档说明如何复现
- [ ] 使用版本控制(git)管理代码
- [ ] 硬件环境信息已记录(GPU 型号、CUDA 版本等)
五、研究伦理
AI 研究中的常见伦理问题
- 数据隐私:训练数据是否包含个人信息?是否获得同意?
- 公平性:模型在不同人群中的表现是否存在显著差异?
- 透明度:模型决策是否可以解释?
- 环境影响:训练和部署模型的计算成本与碳排放
- 双重用途:研究成果可能被用于有害目的吗?
- 社会影响:自动化可能导致的就业变革和社会不平等
负责任研究的准则
- 透明报告:诚实地报告方法的局限性和失败案例
- 偏见审计:定期检查模型在敏感属性上的表现差异
- 知情同意:收集人类数据时获得知情同意
- 开源精神:促进 Open Science,分享代码、数据和模型
- 社会对话:保持与政策制定者、社会公众的对话
伦理议题将贯穿整个课程。在 [[05-人机交互/05-02-人机交互|人机交互]] 中我们会进一步讨论 AI 的安全性和可靠性。
关键概念
| 概念 | 定义 |
|---|---|
| S.P.A.R.K. 准则 | 好研究选题的五条检验标准 |
| Skim → Read → Critique | 三阶段论文阅读策略 |
| 消融实验(Ablation) | 逐一移除系统组件以衡量其贡献 |
| 控制变量 | 保持其他因素不变,只改变待测因素 |
| 可复现性 | 其他人的结果可以被独立验证的能力 |
讨论问题
- 你目前最想解决的 AI 研究问题是什么?用 S.P.A.R.K. 准则检验一下
- 找一篇你感兴趣的 AI 论文,在 10 分钟内完成"浏览"阶段——你学到了什么?
- 为什么可复现性在 AI 研究中如此重要,却又如此难以保证?
- AI 研究者对技术的社会影响应该承担多大责任?
延伸阅读
- 必读:A Recipe for Training Neural Networks — Andrej Karpathy 的深度学习调试指南
- 推荐:A Conceptual Pipeline for Machine Learning
- 工具:使用 PyTorch([[02-基础/02-02-实用AI工具|实用AI工具]])和 HuggingFace 开始你的实验
相关笔记
- [[01-AI导论/01-01-AI导论|AI导论]]
- [[01-AI导论/01-03-本周阅读|本周阅读]]
- [[02-基础/02-02-实用AI工具|实用AI工具]]
- [[05-人机交互/05-02-人机交互|人机交互]]
- [[项目/项目概述|项目概述]]
