标题:Cumulative Reasoning with Large Language Models
作者:Yifan Zhang, Jingqin Yang, Yang Yuan, Andrew Chi-Chih Yao
提交/修订日期:2023年8月8日提交,2025年11月14日最新修订(v9)
主题/分类:计算机科学 > 人工智能 (cs.AI)
摘要/简介:
尽管大语言模型(LLMs)取得了显著进展,但其解决复杂问题的能力仍然有限。本文提出了累积推理(Cumulative Reasoning, CR),这是一个结构化框架,通过模拟人类迭代、累积的思维过程来增强LLM的问题解决能力。CR将LLM编排为三个不同的角色:提议者(Proposer)、验证者(Verifier(s)) 和报告者(Reporter),以系统性地分解任务、生成并验证中间推理步骤,并通过构建一个经过验证的命题的动态有向无环图(DAG) 将它们组合成最终解决方案。这种方法显著提升了问题解决能力。
我们在多个复杂推理任务上展示了CR的优势:
* 逻辑推理任务:在精心整理的FOLIO wiki数据集上达到98.04%的准确率,相比现有方法最高提升9.3%。
* 24点游戏:达到98%的准确率,相比之前方法提升24%。
* MATH问题求解:相比之前方法提升4.2%,在最具挑战性的第5级问题上相对提升43%。
* 结合代码环境:当将代码环境与CR结合时,我们进一步利用了LLMs的推理能力,比程序思维(Program of Thought, PoT)方法高出38.8%。
项目页面:https://github.com/iiis-ai/cumulative-reasoning
备注:本文已发表于《Transactions on Machine Learning Research (TMLR)》。