Skip to content

第8-11周阅读:大模型

核心路径 — 以下为大模型模块核心阅读

§ 第8周:大模型基础

必读

  1. On the Opportunities and Risks of Foundation Models

    • Bommasani et al., 2021 (CRFM, Stanford)
    • https://arxiv.org/abs/2108.07258
    • 中文摘要:提出了"基础模型"(Foundation Model)的概念——在广泛数据上训练、可适应海量下游任务的模型。这篇报告系统分析了基础模型的能力、社会影响和风险,是该领域最具影响力的综述之一。
    • 要点:基础模型定义、预训练-微调范式、能力涌现的讨论
  2. Scaling Laws for Neural Language Models

    • Kaplan et al., 2020 (OpenAI)
    • https://arxiv.org/abs/2001.08361
    • 中文摘要:发现了语言模型性能与模型大小、数据量、计算量之间的幂律关系。这项发现直接指导了GPT-3、PaLM等大模型的规模设计。其核心结论是:在欠拟合状态下,同时扩大模型和数据能最有效地提升性能。
    • 要点:幂律关系、无交叉的规模扩展、最优分配策略
  3. [optional] Scaling Data-Constrained Language Models

    • Hoffmann et al., 2022 (DeepMind, Chinchilla)
    • https://arxiv.org/abs/2203.15556
    • 中文摘要:挑战了Kaplan scaling laws,提出在给定计算预算下,模型和数据应等比例扩展。Chinchilla(70B参数,1.4T token)在相同算力下优于GPT-3(175B参数,300B token)。这一发现深刻影响了后续大模型的训练策略。
    • 要点:Chinchilla最优分配、计算最优训练

扩展阅读

  • Emergent Abilities of Large Language Models (TMLR, 2022) — 涌现能力分析
  • HuggingFace Open LLM Leaderboard — 模型基准评测(关注实际排名而非原始分数)

§ 第9周:多模态大模型

必读

  1. Visual Instruction Tuning

    • LLaVA, NeurIPS 2023
    • https://arxiv.org/abs/2304.08485
    • 中文摘要:提出了视觉指令微调(Visual Instruction Tuning)方法,利用GPT-4生成多模态指令数据,将视觉编码器和LLM结合起来训练。LLaVA展示了仅需相对少量的指令数据就能赋予LLM强大的视觉理解能力。其架构简单但有效:CLIP视觉编码器 + 线性投影 + Vicuna LLM。
    • 要点:视觉指令微调、GPT-4数据生成、简单架构的有效性
  2. Flamingo: a Visual Language Model for Few-Shot Learning

    • DeepMind, NeurIPS 2022
    • https://arxiv.org/abs/2204.14198
    • 中文摘要:Flamingo通过"门控交叉注意力"(Gated Cross-Attention)模块将预训练视觉编码器与冻结的LLM连接,实现了小样本视觉语言学习。其关键创新在于:不需要联合训练视觉和语言部分,而是通过新增的适配器模块实现跨模态理解。
    • 要点:门控交叉注意力、冻结LLM训练、小样本能力

扩展阅读

  • Qwen-VL: A Versatile Vision-Language Model — 中文MLLM代表
  • CogVLM: Visual Expert for Pretrained Language Models — 深层视觉-语言融合
  • Mono-InternVL: A Hybrid MLLM System — 混合MLLM

§ 第10周:推理与规划

必读

  1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

    • Wei et al., NeurIPS 2022
    • https://arxiv.org/abs/2201.11903
    • 中文摘要:提出了思维链(Chain-of-Thought, CoT)提示方法——在示例中展示中间推理步骤,而不是直接给出答案。在算术推理(GSM8K 58%→92%)、常识推理等任务上带来大幅提升。这项发现揭示了一个关键规律:LLM的推理能力不是"有或无"的,而是可以通过提示策略激活的。
    • 要点:CoT提示方法、中间推理步骤的价值、涌现的推理能力
  2. Tree of Thoughts: Deliberate Problem Solving with Large Language Models

    • Yao et al., 2023
    • https://arxiv.org/abs/2305.10601
    • 中文摘要:将CoT从"一条思维链"推广到"思维树"(Tree of Thought, ToT),允许LLM探索多个推理路径并对中间状态进行评估。结合广度优先或深度优先搜索来选择最佳路径。在24点游戏、创意写作等需要规划和搜索的任务上显著优于CoT。
    • 要点:思维树、搜索引导推理、中间状态评估

扩展阅读

  • ReAct: Synergizing Reasoning and Acting in Language Models (ICLR 2023) — 推理+行动一体化
  • Self-Consistency Improves Chain of Thought Reasoning in Language Models (ICLR 2023) — 多数投票提升
  • Large Language Monkeys: Scaling Inference Compute — 测试时计算扩展

§ 第11周:评估与对齐

必读

  1. Training Language Models to Follow Instructions with Human Feedback

    • InstructGPT, NeurIPS 2022
    • https://arxiv.org/abs/2203.02155
    • 中文摘要:RLHF(基于人类反馈的强化学习)的开创性工作。三阶段训练:监督微调(SFT)→ 奖励模型训练 → PPO强化学习。InstructGPT仅有1.3B参数,但在遵循指令任务上优于175B的GPT-3。这篇论文开启了对齐研究的浪潮。
    • 要点:RLHF三阶段、PPO训练、小模型对齐胜过大模型不对齐
  2. Direct Preference Optimization: Your Language Model is Secretly a Reward ModelDPO, NeurIPS 2023

    • https://arxiv.org/abs/2305.18290
    • 中文摘要:提出了直接偏好优化(DPO),不需要训练单独的奖励模型。DPO的关键洞察是从奖励函数到最优策略之间存在闭式解,因此可以直接从偏好数据中优化策略。DPO更简单、更稳定,在许多任务上与RLHF相当或更好。
    • 要点:无奖励模型的偏好优化、闭式解推导、训练稳定性

扩展阅读

  • Constitutional AI: Harmlessness from AI Feedback (Anthropic, 2022) — 宪法AI
  • The Alignment Tax — 对齐需要付出什么代价?
  • Frontier Models are Capable of In-context Scheming (Apollo Research, 2024) — 前沿模型的暗中行为

[[MOC-如何AI一切|🗺️ 返回内容地图]]

基于 MIT MAS.S60 How to AI (Almost) Anything 翻译改编