第2周 & 第4周阅读
⭐ 核心路径 — 以下为本周核心阅读材料
§ 第2周:数据与工具
必读
Machine Learning: Trends, Perspectives, and Prospects
- Science, 2015
- https://www.science.org/doi/abs/10.1126/science.aaa8415
- 中文摘要:这篇来自《科学》杂志的综述全面回顾了机器学习的发展趋势、面临的挑战和未来前景。文章讨论了监督学习、无监督学习、强化学习三大范式,以及深度学习如何改变了各个领域。尽管发表于2015年,其对机器学习基本挑战的讨论至今仍有深刻洞见。
- 要点:ML基本分类、数据驱动方法的核心哲学、典型成功案例
A Recipe for Training Neural Networks
- Andrej Karpathy, 2019
- https://karpathy.github.io/2019/04/25/recipe/
- 中文摘要:Karpathy 的经典博客,提出了训练神经网络"菜谱"——一套系统化的方法论:理解数据 → 建立基线 → 过拟合小样本 → 正则化调参 → 调整学习率。强调训练神经网络不是一个黑箱操作,而是需要严谨的科学方法。
- 要点:训练调试方法论、常见陷阱、系统化调参思路
扩展阅读
- Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges (arXiv:2104.13478)
- 统一视角:不同模型架构对应不同数据结构的对称性/不变性
§ 第4周:模型架构
必读
Attention Is All You Need
- Vaswani et al., NeurIPS 2017
- https://arxiv.org/abs/1706.03762
- 中文摘要:Transformer 架构的原始论文,提出了完全基于注意力机制的序列转导模型,抛弃了传统的循环和卷积结构。核心创新包括:缩放点积注意力(Scaled Dot-Product Attention)、多头注意力(Multi-Head Attention)、位置编码(Positional Encoding)。这一架构奠定了现代大语言模型的基础。
- 要点:Self-Attention 机制、Multi-Head Attention、Transformer 编码器-解码器结构
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
- Dosovitskiy et al., ICLR 2021
- https://arxiv.org/abs/2010.11929
- 中文摘要:ViT(Vision Transformer)将标准 Transformer 直接应用于图像识别,将图像分割为固定大小的 patch 并将其作为 token 序列输入。当在足够大规模的数据集上预训练后,ViT 可以在多个图像识别基准上超越传统 CNN。这一工作标志着 Transformer 在计算机视觉领域的突破。
- 要点:图像 patch 化、ViT 架构、大规模预训练的重要性
扩展阅读
- Deep Sets (arXiv:1703.06114) — 集合数据的置换不变性建模
- Graph Attention Networks (arXiv:1710.10903) — 图数据上的注意力机制
- Neural Machine Translation by Jointly Learning to Align and Translate (arXiv:1409.0473) — 注意力机制的起源
讨论课准备
[[讨论课/讨论01-学习与泛化|讨论01:学习与泛化]] 的阅读材料将另行列出。
[[MOC-如何AI一切|🗺️ 返回内容地图]]
