2025年6月22日,苹果一篇有关“大模型推理能力崩溃”的论文在学术与产业界引发轩然大波。该论文指出,大语言模型(LLM)在复杂任务中“准确率崩溃”,质疑它们的“思考能力”。随后,硅谷AI圈迅速作出反应,围绕推理能力、实验设计、模型限制等问题展开激烈讨论。
📄 Claude以论文第一作者身份反驳苹果观点
6月10日,Anthropic旗下大模型 Claude 与人类作者联合在 arXiv 平台发表题为《The Illusion of the Illusion of Thinking》的论文,对苹果提出的“推理崩溃论”进行反驳。
Claude 论文提出:
- 苹果的测试超出模型token限制,输出被截断;
- 评估框架错误地将token截断误判为推理失败;
- 实验中设置的“河内塔”实例部分在数学上无法解出,导致模型“被动失败”。
Claude 的论文强调,应重新设计测试方式,如用生成函数替代步骤列表,可显著提升推理准确率。
🔗 阅读 Claude 联合论文
🧠 Gary Marcus:七大反驳均不成立,苹果指出了根本性问题
纽约大学名誉教授、AI批评者 Gary Marcus 在其博客中逐条反驳主流质疑,并支持苹果论文:
- “人类也不会推理” —— 机器本就应超越人类。
- “token 长度限制” —— 8盘河内塔仅需255步,完全在token限制内。
- “一作是实习生” —— 该实习生为杰出博士生,论文有多位资深合作者。
- “更大模型会做得更好” —— 表现仍不稳定,缺乏保障。
- “模型可以写代码解决问题” —— 问题在于是否“理解”算法,而非是否“能搜到”答案。
- “例子少” —— 但结果与大量先前研究一致,具代表性。
- “我们早就知道大模型泛化能力差” —— 那为何还宣称它们是通用智能的路径?
🔗 阅读 Gary Marcus 博客:Seven Replies to the Viral Apple Paper
📉 Salesforce:顶级模型多轮推理成功率仅35%
Salesforce 5月发布的论文《CRMArena-Pro》进一步佐证苹果结论,揭示大语言模型在真实商业多轮交互场景中的薄弱表现:
- 多轮交互成功率仅为35%
- 保密意识几乎为零
- 除基础流程外,其余技能掌握极为薄弱
🔗 阅读 Salesforce 论文
🖼 UC伯克利:视觉语言模型“只会猜”,忽略图像信息
加州大学伯克利分校于6月9日发布论文,指出视觉语言模型(VLM)无法有效利用图像编码器信息:
- VLM 表现显著劣于视觉编码器
- 仅依赖语言先验进行“编造式”回答
- 多项任务表现接近“随机水平”
🔗 阅读 UC伯克利论文
🔎 学术共识在分裂,呼吁“新评估范式”
这场围绕苹果论文的争议,已超越模型性能本身:
- Claude 与人类作者联合“发文”,AI首次以“一作”身份直接参与学术争论;
- Gary Marcus 发声反击“围殴式批评”,认为当前大模型远未达到AGI标准;
- Salesforce 与伯克利 用实证研究佐证模型脆弱性,呼吁强化推理、保密性和泛化能力。
🔚 总结:通用人工智能之路并不“规模即真理”
苹果的论文掀起了一场AI信仰危机。越来越多的证据表明,仅靠“堆规模”难以真正实现高可靠性的通用智能系统。当前亟需:
- 构建更加真实、复杂的测试基准
- 突破当前架构局限
- 探索神经符号结合的新路径
未来的AI,不应只是模仿人类语言,而是能像人类一样理解、推理、创造。