Chain-of-Reasoning：统一自然语言与符号推理的多范式框架

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

作者： Yiyao Yu, Yuxiang Zhang, Dongdong Zhang, Xiao Liang, Hengyuan Zhang, Xingxing Zhang, Ziyi Yang, Mahmoud Khademi, Hany Awadalla, Junjie Wang, Yujiu Yang, Furu Wei

摘要：
大语言模型（LLMs）在数学推理方面取得了显著进展，但通常依赖于单一范式的推理，这限制了其在多样化任务中的有效性。本文提出了推理链（Chain-of-Reasoning, CoR），这是一个新颖的统一框架，它集成了多种推理范式——自然语言推理（NLR）、算法推理（AR）和符号推理（SR）——以实现协同合作。CoR通过不同的推理范式生成多个潜在答案，并将它们综合成一个连贯的最终解决方案。我们提出了一种渐进式范式训练（Progressive Paradigm Training, PPT）策略，使模型逐步掌握这些范式，从而训练出CoR-Math-7B模型。实验结果表明，CoR-Math-7B显著优于当前的最先进（SOTA）模型，在定理证明任务上相对于GPT-4o实现了高达41.0%的绝对性能提升，在MATH基准的算术任务上相对于基于强化学习的方法实现了15.0%的提升。这些结果展示了我们模型增强的数学理解能力，使其能够实现跨任务的零样本泛化。

主题/分类： 计算与语言（cs.CL）

状态： 已提交于2025年1月19日，最新修订于2025年9月4日（版本v4）。已获ACL 2025（主会）接收。

论文地址：https://arxiv.org/abs/2501.11110

32 次点击 ∙ 0 人收藏

登录后收藏

0 条回复