作者: Yiyao Yu, Yuxiang Zhang, Dongdong Zhang, Xiao Liang, Hengyuan Zhang, Xingxing Zhang, Ziyi Yang, Mahmoud Khademi, Hany Awadalla, Junjie Wang, Yujiu Yang, Furu Wei
摘要:
大语言模型(LLMs)在数学推理方面取得了显著进展,但通常依赖于单一范式的推理,这限制了其在多样化任务中的有效性。本文提出了推理链(Chain-of-Reasoning, CoR),这是一个新颖的统一框架,它集成了多种推理范式——自然语言推理(NLR)、算法推理(AR)和符号推理(SR)——以实现协同合作。CoR通过不同的推理范式生成多个潜在答案,并将它们综合成一个连贯的最终解决方案。我们提出了一种渐进式范式训练(Progressive Paradigm Training, PPT)策略,使模型逐步掌握这些范式,从而训练出CoR-Math-7B模型。实验结果表明,CoR-Math-7B显著优于当前的最先进(SOTA)模型,在定理证明任务上相对于GPT-4o实现了高达41.0%的绝对性能提升,在MATH基准的算术任务上相对于基于强化学习的方法实现了15.0%的提升。这些结果展示了我们模型增强的数学理解能力,使其能够实现跨任务的零样本泛化。
主题/分类: 计算与语言(cs.CL)
状态: 已提交于2025年1月19日,最新修订于2025年9月4日(版本v4)。已获ACL 2025(主会)接收。