Skip to content

第2周 & 第4周阅读

核心路径 — 以下为本周核心阅读材料

§ 第2周:数据与工具

必读

  1. Machine Learning: Trends, Perspectives, and Prospects

    • Science, 2015
    • https://www.science.org/doi/abs/10.1126/science.aaa8415
    • 中文摘要:这篇来自《科学》杂志的综述全面回顾了机器学习的发展趋势、面临的挑战和未来前景。文章讨论了监督学习、无监督学习、强化学习三大范式,以及深度学习如何改变了各个领域。尽管发表于2015年,其对机器学习基本挑战的讨论至今仍有深刻洞见。
    • 要点:ML基本分类、数据驱动方法的核心哲学、典型成功案例
  2. A Recipe for Training Neural Networks

    • Andrej Karpathy, 2019
    • https://karpathy.github.io/2019/04/25/recipe/
    • 中文摘要:Karpathy 的经典博客,提出了训练神经网络"菜谱"——一套系统化的方法论:理解数据 → 建立基线 → 过拟合小样本 → 正则化调参 → 调整学习率。强调训练神经网络不是一个黑箱操作,而是需要严谨的科学方法。
    • 要点:训练调试方法论、常见陷阱、系统化调参思路

扩展阅读

  • Geometric Deep Learning: Grids, Groups, Graphs, Geodesics, and Gauges (arXiv:2104.13478)
    • 统一视角:不同模型架构对应不同数据结构的对称性/不变性

§ 第4周:模型架构

必读

  1. Attention Is All You Need

    • Vaswani et al., NeurIPS 2017
    • https://arxiv.org/abs/1706.03762
    • 中文摘要:Transformer 架构的原始论文,提出了完全基于注意力机制的序列转导模型,抛弃了传统的循环和卷积结构。核心创新包括:缩放点积注意力(Scaled Dot-Product Attention)、多头注意力(Multi-Head Attention)、位置编码(Positional Encoding)。这一架构奠定了现代大语言模型的基础。
    • 要点:Self-Attention 机制、Multi-Head Attention、Transformer 编码器-解码器结构
  2. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

    • Dosovitskiy et al., ICLR 2021
    • https://arxiv.org/abs/2010.11929
    • 中文摘要:ViT(Vision Transformer)将标准 Transformer 直接应用于图像识别,将图像分割为固定大小的 patch 并将其作为 token 序列输入。当在足够大规模的数据集上预训练后,ViT 可以在多个图像识别基准上超越传统 CNN。这一工作标志着 Transformer 在计算机视觉领域的突破。
    • 要点:图像 patch 化、ViT 架构、大规模预训练的重要性

扩展阅读

  • Deep Sets (arXiv:1703.06114) — 集合数据的置换不变性建模
  • Graph Attention Networks (arXiv:1710.10903) — 图数据上的注意力机制
  • Neural Machine Translation by Jointly Learning to Align and Translate (arXiv:1409.0473) — 注意力机制的起源

讨论课准备

[[讨论课/讨论01-学习与泛化|讨论01:学习与泛化]] 的阅读材料将另行列出。

[[MOC-如何AI一切|🗺️ 返回内容地图]]

基于 MIT MAS.S60 How to AI (Almost) Anything 翻译改编