Skip to content

讨论01:学习与泛化

🔍 扩展内容 — 本节为论文讨论课,适合想深入理解学习理论的学员

讨论主题

深度学习模型为何能够泛化?规模扩大是否必然带来更好的性能?本节讨论围绕学习与泛化的基本问题展开。

阅读材料

  1. Learning the Bitter Lesson

    • Rich Sutton, 2019
    • https://arxiv.org/pdf/2410.09649
    • 中文摘要:Rich Sutton 的著名短文"苦涩的教训"指出:70年AI研究发现的最大教训是,利用算力的通用方法最终会胜出,而人类注入的知识虽然短期内有帮助,长期来看却成为性能提升的瓶颈。这一观点对模型架构设计、数据策略有深远影响。
    • 讨论问题:你同意"苦涩的教训"吗?是否有反例?
  2. Unifying Grokking and Double Descent

    • arXiv:2303.06173
    • 中文摘要:这篇论文试图统一"顿悟"(Grokking)和"双重下降"(Double Descent)两种现象。Grokking 是指模型在过拟合训练数据后,经过更长时间训练突然学会泛化的现象。Double Descent 是指随着模型规模增大,测试误差先下降、再上升(过拟合)、再下降的现象。论文提出了一个统一的理论框架来解释这两种现象。
    • 讨论问题:这对模型训练策略有什么启示?
  3. Generalization in Neural Networks

    • arXiv:2209.01610
    • 中文摘要:探讨神经网络泛化的理论基础,包括 PAC 学习理论、Rademacher 复杂度、神经切线核(NTK)等视角。
  4. Textbooks are All You Need

    • arXiv:2306.11644
    • 中文摘要:微软研究院的工作,证明使用高质量的"教科书式"数据(而非原始网络数据)训练的小模型,可以在推理任务上超越使用海量数据训练的大模型。这一发现挑战了"更多数据总是更好"的传统认知。
    • 讨论问题:数据质量 vs 数据规模,哪个更重要?
  5. A Conceptual Pipeline for Machine Learning

    • arXiv:2207.07528
    • 中文摘要:提出了一个概念性的机器学习流水线框架,帮助研究者系统化地思考从问题定义到模型部署的完整流程。

讨论流程

  1. 开场(10分钟):回顾本周讲座核心概念
  2. 论文汇报(30分钟):2-3 位学员各用 10 分钟分享一篇论文的阅读心得
  3. 自由讨论(15分钟):围绕核心问题展开讨论
  4. 总结(5分钟):提炼关键洞见

核心议题

  • 规模扩展(Scaling)是否会导致通用智能?
  • 数据质量与数量的权衡
  • 何时应该相信模型的泛化能力?
  • "苦涩的教训"在今天的多模态大模型时代还成立吗?

延伸思考

  • 将讨论内容与 [[02-基础/02-01-数据与结构|数据与结构]] 讲座联系:数据质量如何影响泛化
  • 与 [[02-基础/02-03-模型架构|模型架构]] 讲座联系:架构设计如何影响泛化

[[MOC-如何AI一切|🗺️ 返回内容地图]]

基于 MIT MAS.S60 How to AI (Almost) Anything 翻译改编