讨论01：学习与泛化

🔍 扩展内容 — 本节为论文讨论课，适合想深入理解学习理论的学员

讨论主题

深度学习模型为何能够泛化？规模扩大是否必然带来更好的性能？本节讨论围绕学习与泛化的基本问题展开。

阅读材料

Learning the Bitter Lesson
- Rich Sutton, 2019
- https://arxiv.org/pdf/2410.09649
- 中文摘要：Rich Sutton 的著名短文"苦涩的教训"指出：70年AI研究发现的最大教训是，利用算力的通用方法最终会胜出，而人类注入的知识虽然短期内有帮助，长期来看却成为性能提升的瓶颈。这一观点对模型架构设计、数据策略有深远影响。
- 讨论问题：你同意"苦涩的教训"吗？是否有反例？
Unifying Grokking and Double Descent
- arXiv:2303.06173
- 中文摘要：这篇论文试图统一"顿悟"（Grokking）和"双重下降"（Double Descent）两种现象。Grokking 是指模型在过拟合训练数据后，经过更长时间训练突然学会泛化的现象。Double Descent 是指随着模型规模增大，测试误差先下降、再上升（过拟合）、再下降的现象。论文提出了一个统一的理论框架来解释这两种现象。
- 讨论问题：这对模型训练策略有什么启示？
Generalization in Neural Networks
- arXiv:2209.01610
- 中文摘要：探讨神经网络泛化的理论基础，包括 PAC 学习理论、Rademacher 复杂度、神经切线核（NTK）等视角。
Textbooks are All You Need
- arXiv:2306.11644
- 中文摘要：微软研究院的工作，证明使用高质量的"教科书式"数据（而非原始网络数据）训练的小模型，可以在推理任务上超越使用海量数据训练的大模型。这一发现挑战了"更多数据总是更好"的传统认知。
- 讨论问题：数据质量 vs 数据规模，哪个更重要？
A Conceptual Pipeline for Machine Learning
- arXiv:2207.07528
- 中文摘要：提出了一个概念性的机器学习流水线框架，帮助研究者系统化地思考从问题定义到模型部署的完整流程。

讨论流程

开场（10分钟）：回顾本周讲座核心概念
论文汇报（30分钟）：2-3 位学员各用 10 分钟分享一篇论文的阅读心得
自由讨论（15分钟）：围绕核心问题展开讨论
总结（5分钟）：提炼关键洞见

核心议题

规模扩展（Scaling）是否会导致通用智能？
数据质量与数量的权衡
何时应该相信模型的泛化能力？
"苦涩的教训"在今天的多模态大模型时代还成立吗？

延伸思考

将讨论内容与 [[02-基础/02-01-数据与结构|数据与结构]] 讲座联系：数据质量如何影响泛化
与 [[02-基础/02-03-模型架构|模型架构]] 讲座联系：架构设计如何影响泛化

[[MOC-如何AI一切|🗺️ 返回内容地图]]

讨论01：学习与泛化 ​

讨论主题 ​

阅读材料 ​

讨论流程 ​

核心议题 ​

延伸思考 ​

讨论01：学习与泛化

讨论主题

阅读材料

讨论流程

核心议题

延伸思考