OA0 - 苹果论文质疑大模型推理能力，引发AI业界热议

OA0 = Omni AI 0

OA0 是一个探索 AI 的论坛

现在注册

已注册用户请登录

2025年6月中旬，苹果公司发布了一篇引发广泛争议的研究论文，系统性地质疑当前主流大语言模型（LLMs）在处理复杂推理任务中的有效性。该论文通过严谨实验，指出这些模型在面对超过一定复杂度阈值的规划性难题时，准确率会突然“崩溃”，揭示出其在逻辑推理能力方面的根本性短板。

📉 实验发现：“推理崩溃”并非偶发现象

论文以经典的“河内塔”（Tower of Hanoi）问题作为测试任务，展示了多款主流模型在处理特定规模难题时表现出明显的不稳定性：

研究结论认为，当前主流模型所表现出的“类思考”能力更多是语言生成的假象，而非真实的推理能力。

这项研究对AI界的“规模主义”信条发出了直接挑战：即更大、更强的模型不一定意味着更强的智能。

论文指出，随着任务复杂度的上升，模型表现趋于不稳定，甚至不如基础符号算法。这也再次引发了关于“通用人工智能（AGI）路径”的讨论：我们是否低估了推理、规划等具备结构性特征的智能行为的复杂性？

论文强调，目前AI领域对模型评估的标准和基准普遍偏向语言生成和任务成功率，而缺乏真正考察推理能力的测试。这可能导致模型在“看起来正确”的回答背后掩盖了深层次的逻辑缺陷。

苹果研究团队呼吁，AI社区应重新审视模型设计思路和评估机制，关注模型是否真正“理解”任务，而非仅仅“学会模仿”。

苹果这篇研究论文发布在 arXiv 平台，全文可访问：

该论文的发布已迅速引发包括 Claude、Gary Marcus、Salesforce 等AI业内代表的广泛回应，也引发了关于“下一代模型设计”与“神经符号结合”的讨论。未来人工智能的发展方向，或许不仅要更大、更快，更需要更可解释、更可靠的“推理能力”。

253 次点击 ∙ 0 人收藏

登录后收藏

目前尚无回复

0 条回复