讨论06:基于模型的推理
🔍 扩展内容 — 本节适合对推理方法已有了解的学员
讨论主题
LLM的"推理"是真正的逻辑推理还是模式匹配?思维链(CoT)是否只是提升了计算深度?如何区分和衡量模型是否"真正理解"?
阅读材料
Do Large Language Models Understand the World? A Closer Look at their Reasoning Capabilities
- International Journal of Cognitive Informatics, 2024
- 中文摘要:从认知科学视角审视LLM是否真正"理解"世界。分析了LLM在常识推理、因果推理和反事实推理上的表现,提出目前的LLM更多依赖于表面模式匹配而非真正的因果推理能力。
- 讨论:如何定义和理解"推理"?
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
- Apple, 2024
- https://arxiv.org/abs/2410.05229
- 中文摘要:Apple的系统性研究表明,当GSM8K数据集中的数字被替换后,LLM的性能大幅下降。这意味着LLM的"推理"很大程度上依赖于训练数据的表面模式,而非真正的数学推理能力。
- 讨论:此发现对CoT和推理测评的意义?
The Impact of Reasoning Step Length on Large Language Models
- arXiv:2501.04907
- 中文摘要:研究推理步长对LLM性能的影响,发现在某些任务上,增加推理步长(即使是不必要的步骤)也可能提升准确率。
Let's Verify Step by Step
- OpenAI, 2023
- https://arxiv.org/abs/2305.20050
- 中文摘要:OpenAI的过程奖励模型(Process Reward Model)工作,通过在每一步给予奖励信号来引导模型的推理过程,比结果奖励更能提升数学推理能力。
核心议题
- LLM的推理是真正推理还是"近似检索"?
- CoT、ToT等方法的价值究竟是什么?
- 过程奖励 vs 结果奖励:推理评估的最佳方式
- 从推理到规划:推理能力的应用边界
[[MOC-如何AI一切|🗺️ 返回内容地图]]
