第2周 & 第4周阅读

⭐ 核心路径 — 以下为本周核心阅读材料

§ 第2周：数据与工具

Machine Learning: Trends, Perspectives, and Prospects
- Science, 2015
- https://www.science.org/doi/abs/10.1126/science.aaa8415
- 中文摘要：这篇来自《科学》杂志的综述全面回顾了机器学习的发展趋势、面临的挑战和未来前景。文章讨论了监督学习、无监督学习、强化学习三大范式，以及深度学习如何改变了各个领域。尽管发表于2015年，其对机器学习基本挑战的讨论至今仍有深刻洞见。
- 要点：ML基本分类、数据驱动方法的核心哲学、典型成功案例
A Recipe for Training Neural Networks
- Andrej Karpathy, 2019
- https://karpathy.github.io/2019/04/25/recipe/
- 中文摘要：Karpathy 的经典博客，提出了训练神经网络"菜谱"——一套系统化的方法论：理解数据 → 建立基线 → 过拟合小样本 → 正则化调参 → 调整学习率。强调训练神经网络不是一个黑箱操作，而是需要严谨的科学方法。
- 要点：训练调试方法论、常见陷阱、系统化调参思路

Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges (arXiv:2104.13478)
- 统一视角：不同模型架构对应不同数据结构的对称性/不变性

Attention Is All You Need
- Vaswani et al., NeurIPS 2017
- https://arxiv.org/abs/1706.03762
- 中文摘要：Transformer 架构的原始论文，提出了完全基于注意力机制的序列转导模型，抛弃了传统的循环和卷积结构。核心创新包括：缩放点积注意力（Scaled Dot-Product Attention）、多头注意力（Multi-Head Attention）、位置编码（Positional Encoding）。这一架构奠定了现代大语言模型的基础。
- 要点：Self-Attention 机制、Multi-Head Attention、Transformer 编码器-解码器结构
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
- Dosovitskiy et al., ICLR 2021
- https://arxiv.org/abs/2010.11929
- 中文摘要：ViT（Vision Transformer）将标准 Transformer 直接应用于图像识别，将图像分割为固定大小的 patch 并将其作为 token 序列输入。当在足够大规模的数据集上预训练后，ViT 可以在多个图像识别基准上超越传统 CNN。这一工作标志着 Transformer 在计算机视觉领域的突破。
- 要点：图像 patch 化、ViT 架构、大规模预训练的重要性

Deep Sets (arXiv:1703.06114) — 集合数据的置换不变性建模
Graph Attention Networks (arXiv:1710.10903) — 图数据上的注意力机制
Neural Machine Translation by Jointly Learning to Align and Translate (arXiv:1409.0473) — 注意力机制的起源

[[讨论课/讨论01-学习与泛化|讨论01：学习与泛化]] 的阅读材料将另行列出。

[[MOC-如何AI一切|🗺️ 返回内容地图]]