作者: Jiaxin Wen, Jian Guan, Hongning Wang, Wei Wu, Minlie Huang
提交/修订日期: 2024年9月19日提交,2024年10月4日修订
主题分类: 计算与语言 (cs.CL)
摘要:
尽管大语言模型(LLMs)在传统自然语言处理任务上取得了显著成功,但其规划能力仍然是处理复杂多步推理任务的关键瓶颈。现有方法主要依赖于提示或特定任务的微调,通常存在鲁棒性差和跨任务泛化能力不足的问题。为了应对这一局限,我们引入了 CodePlan,这是一个可扩展的框架,它使 LLMs 能够生成并遵循 代码形式规划 —— 一种概述高级、结构化推理过程的伪代码。通过利用代码的结构化和通用性,CodePlan 有效地捕捉了复杂推理任务所固有的丰富语义和控制流。重要的是,CodePlan 允许从海量、广泛的文本语料库中自动提取代码形式规划,而无需精心策划的、特定任务的数据集。这使其能够高效扩展,并在多样化的场景中提升 LLM 的推理能力。为了训练 CodePlan,我们构建了一个包含 200 万个样本的大规模数据集,这些样本将代码形式规划与现有语料库中的标准提示-响应对相结合。在训练和推理过程中计算开销最小的情况下,CodePlan 在 13 个具有挑战性的多步推理基准测试(涵盖数学推理、符号推理、指令遵循、多跳问答和决策任务)上,平均实现了相对于直接生成响应 25.1% 的相对性能提升。进一步的分析表明,CodePlan 在更复杂的推理任务上获得了递增的性能收益,并且由于其泛化能力,具有显著的数据效率。