讨论01:学习与泛化
🔍 扩展内容 — 本节为论文讨论课,适合想深入理解学习理论的学员
讨论主题
深度学习模型为何能够泛化?规模扩大是否必然带来更好的性能?本节讨论围绕学习与泛化的基本问题展开。
阅读材料
Learning the Bitter Lesson
- Rich Sutton, 2019
- https://arxiv.org/pdf/2410.09649
- 中文摘要:Rich Sutton 的著名短文"苦涩的教训"指出:70年AI研究发现的最大教训是,利用算力的通用方法最终会胜出,而人类注入的知识虽然短期内有帮助,长期来看却成为性能提升的瓶颈。这一观点对模型架构设计、数据策略有深远影响。
- 讨论问题:你同意"苦涩的教训"吗?是否有反例?
Unifying Grokking and Double Descent
- arXiv:2303.06173
- 中文摘要:这篇论文试图统一"顿悟"(Grokking)和"双重下降"(Double Descent)两种现象。Grokking 是指模型在过拟合训练数据后,经过更长时间训练突然学会泛化的现象。Double Descent 是指随着模型规模增大,测试误差先下降、再上升(过拟合)、再下降的现象。论文提出了一个统一的理论框架来解释这两种现象。
- 讨论问题:这对模型训练策略有什么启示?
Generalization in Neural Networks
- arXiv:2209.01610
- 中文摘要:探讨神经网络泛化的理论基础,包括 PAC 学习理论、Rademacher 复杂度、神经切线核(NTK)等视角。
Textbooks are All You Need
- arXiv:2306.11644
- 中文摘要:微软研究院的工作,证明使用高质量的"教科书式"数据(而非原始网络数据)训练的小模型,可以在推理任务上超越使用海量数据训练的大模型。这一发现挑战了"更多数据总是更好"的传统认知。
- 讨论问题:数据质量 vs 数据规模,哪个更重要?
A Conceptual Pipeline for Machine Learning
- arXiv:2207.07528
- 中文摘要:提出了一个概念性的机器学习流水线框架,帮助研究者系统化地思考从问题定义到模型部署的完整流程。
讨论流程
- 开场(10分钟):回顾本周讲座核心概念
- 论文汇报(30分钟):2-3 位学员各用 10 分钟分享一篇论文的阅读心得
- 自由讨论(15分钟):围绕核心问题展开讨论
- 总结(5分钟):提炼关键洞见
核心议题
- 规模扩展(Scaling)是否会导致通用智能?
- 数据质量与数量的权衡
- 何时应该相信模型的泛化能力?
- "苦涩的教训"在今天的多模态大模型时代还成立吗?
延伸思考
- 将讨论内容与 [[02-基础/02-01-数据与结构|数据与结构]] 讲座联系:数据质量如何影响泛化
- 与 [[02-基础/02-03-模型架构|模型架构]] 讲座联系:架构设计如何影响泛化
[[MOC-如何AI一切|🗺️ 返回内容地图]]
