第8-11周阅读：大模型

⭐ 核心路径 — 以下为大模型模块核心阅读

§ 第8周：大模型基础

On the Opportunities and Risks of Foundation Models
- Bommasani et al., 2021 (CRFM, Stanford)
- https://arxiv.org/abs/2108.07258
- 中文摘要：提出了"基础模型"(Foundation Model)的概念——在广泛数据上训练、可适应海量下游任务的模型。这篇报告系统分析了基础模型的能力、社会影响和风险，是该领域最具影响力的综述之一。
- 要点：基础模型定义、预训练-微调范式、能力涌现的讨论
Scaling Laws for Neural Language Models
- Kaplan et al., 2020 (OpenAI)
- https://arxiv.org/abs/2001.08361
- 中文摘要：发现了语言模型性能与模型大小、数据量、计算量之间的幂律关系。这项发现直接指导了GPT-3、PaLM等大模型的规模设计。其核心结论是：在欠拟合状态下，同时扩大模型和数据能最有效地提升性能。
- 要点：幂律关系、无交叉的规模扩展、最优分配策略
[optional] Scaling Data-Constrained Language Models
- Hoffmann et al., 2022 (DeepMind, Chinchilla)
- https://arxiv.org/abs/2203.15556
- 中文摘要：挑战了Kaplan scaling laws，提出在给定计算预算下，模型和数据应等比例扩展。Chinchilla（70B参数，1.4T token）在相同算力下优于GPT-3（175B参数，300B token）。这一发现深刻影响了后续大模型的训练策略。
- 要点：Chinchilla最优分配、计算最优训练

Visual Instruction Tuning
- LLaVA, NeurIPS 2023
- https://arxiv.org/abs/2304.08485
- 中文摘要：提出了视觉指令微调（Visual Instruction Tuning）方法，利用GPT-4生成多模态指令数据，将视觉编码器和LLM结合起来训练。LLaVA展示了仅需相对少量的指令数据就能赋予LLM强大的视觉理解能力。其架构简单但有效：CLIP视觉编码器 + 线性投影 + Vicuna LLM。
- 要点：视觉指令微调、GPT-4数据生成、简单架构的有效性
Flamingo: a Visual Language Model for Few-Shot Learning
- DeepMind, NeurIPS 2022
- https://arxiv.org/abs/2204.14198
- 中文摘要：Flamingo通过"门控交叉注意力"（Gated Cross-Attention）模块将预训练视觉编码器与冻结的LLM连接，实现了小样本视觉语言学习。其关键创新在于：不需要联合训练视觉和语言部分，而是通过新增的适配器模块实现跨模态理解。
- 要点：门控交叉注意力、冻结LLM训练、小样本能力

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
- Wei et al., NeurIPS 2022
- https://arxiv.org/abs/2201.11903
- 中文摘要：提出了思维链（Chain-of-Thought, CoT）提示方法——在示例中展示中间推理步骤，而不是直接给出答案。在算术推理（GSM8K 58%→92%）、常识推理等任务上带来大幅提升。这项发现揭示了一个关键规律：LLM的推理能力不是"有或无"的，而是可以通过提示策略激活的。
- 要点：CoT提示方法、中间推理步骤的价值、涌现的推理能力
Tree of Thoughts: Deliberate Problem Solving with Large Language Models
- Yao et al., 2023
- https://arxiv.org/abs/2305.10601
- 中文摘要：将CoT从"一条思维链"推广到"思维树"（Tree of Thought, ToT），允许LLM探索多个推理路径并对中间状态进行评估。结合广度优先或深度优先搜索来选择最佳路径。在24点游戏、创意写作等需要规划和搜索的任务上显著优于CoT。
- 要点：思维树、搜索引导推理、中间状态评估

ReAct: Synergizing Reasoning and Acting in Language Models (ICLR 2023) — 推理+行动一体化
Self-Consistency Improves Chain of Thought Reasoning in Language Models (ICLR 2023) — 多数投票提升
Large Language Monkeys: Scaling Inference Compute — 测试时计算扩展

Training Language Models to Follow Instructions with Human Feedback
- InstructGPT, NeurIPS 2022
- https://arxiv.org/abs/2203.02155
- 中文摘要：RLHF（基于人类反馈的强化学习）的开创性工作。三阶段训练：监督微调（SFT）→ 奖励模型训练 → PPO强化学习。InstructGPT仅有1.3B参数，但在遵循指令任务上优于175B的GPT-3。这篇论文开启了对齐研究的浪潮。
- 要点：RLHF三阶段、PPO训练、小模型对齐胜过大模型不对齐
Direct Preference Optimization: Your Language Model is Secretly a Reward ModelDPO, NeurIPS 2023
- https://arxiv.org/abs/2305.18290
- 中文摘要：提出了直接偏好优化（DPO），不需要训练单独的奖励模型。DPO的关键洞察是从奖励函数到最优策略之间存在闭式解，因此可以直接从偏好数据中优化策略。DPO更简单、更稳定，在许多任务上与RLHF相当或更好。
- 要点：无奖励模型的偏好优化、闭式解推导、训练稳定性

Constitutional AI: Harmlessness from AI Feedback (Anthropic, 2022) — 宪法AI
The Alignment Tax — 对齐需要付出什么代价？
Frontier Models are Capable of In-context Scheming (Apollo Research, 2024) — 前沿模型的暗中行为

[[MOC-如何AI一切|🗺️ 返回内容地图]]