讨论06：基于模型的推理

🔍 扩展内容 — 本节适合对推理方法已有了解的学员

讨论主题

LLM的"推理"是真正的逻辑推理还是模式匹配？思维链（CoT）是否只是提升了计算深度？如何区分和衡量模型是否"真正理解"？

Do Large Language Models Understand the World? A Closer Look at their Reasoning Capabilities
- International Journal of Cognitive Informatics, 2024
- 中文摘要：从认知科学视角审视LLM是否真正"理解"世界。分析了LLM在常识推理、因果推理和反事实推理上的表现，提出目前的LLM更多依赖于表面模式匹配而非真正的因果推理能力。
- 讨论：如何定义和理解"推理"？
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
- Apple, 2024
- https://arxiv.org/abs/2410.05229
- 中文摘要：Apple的系统性研究表明，当GSM8K数据集中的数字被替换后，LLM的性能大幅下降。这意味着LLM的"推理"很大程度上依赖于训练数据的表面模式，而非真正的数学推理能力。
- 讨论：此发现对CoT和推理测评的意义？
The Impact of Reasoning Step Length on Large Language Models
- arXiv:2501.04907
- 中文摘要：研究推理步长对LLM性能的影响，发现在某些任务上，增加推理步长（即使是不必要的步骤）也可能提升准确率。
Let's Verify Step by Step
- OpenAI, 2023
- https://arxiv.org/abs/2305.20050
- 中文摘要：OpenAI的过程奖励模型（Process Reward Model）工作，通过在每一步给予奖励信号来引导模型的推理过程，比结果奖励更能提升数学推理能力。

[[MOC-如何AI一切|🗺️ 返回内容地图]]