2025年6月中旬,苹果公司发布了一篇引发广泛争议的研究论文,系统性地质疑当前主流大语言模型(LLMs)在处理复杂推理任务中的有效性。该论文通过严谨实验,指出这些模型在面对超过一定复杂度阈值的规划性难题时,准确率会突然“崩溃”,揭示出其在逻辑推理能力方面的根本性短板。
论文以经典的“河内塔”(Tower of Hanoi)问题作为测试任务,展示了多款主流模型在处理特定规模难题时表现出明显的不稳定性:
研究结论认为,当前主流模型所表现出的“类思考”能力更多是语言生成的假象,而非真实的推理能力。
这项研究对AI界的“规模主义”信条发出了直接挑战:即更大、更强的模型不一定意味着更强的智能。
论文指出,随着任务复杂度的上升,模型表现趋于不稳定,甚至不如基础符号算法。这也再次引发了关于“通用人工智能(AGI)路径”的讨论:我们是否低估了推理、规划等具备结构性特征的智能行为的复杂性?
论文强调,目前AI领域对模型评估的标准和基准普遍偏向语言生成和任务成功率,而缺乏真正考察推理能力的测试。这可能导致模型在“看起来正确”的回答背后掩盖了深层次的逻辑缺陷。
苹果研究团队呼吁,AI社区应重新审视模型设计思路和评估机制,关注模型是否真正“理解”任务,而非仅仅“学会模仿”。
苹果这篇研究论文发布在 arXiv 平台,全文可访问:
https://arxiv.org/abs/2506.09250
该论文的发布已迅速引发包括 Claude、Gary Marcus、Salesforce 等AI业内代表的广泛回应,也引发了关于“下一代模型设计”与“神经符号结合”的讨论。未来人工智能的发展方向,或许不仅要更大、更快,更需要更可解释、更可靠的“推理能力”。