作者: Wenhu Chen, Xueguang Ma, Xinyi Wang, William W. Cohen
提交/修订日期: 2022年11月22日提交,2023年10月23日修订(v4)
发表信息: 发表于 TMLR 2023
主题分类: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
摘要:
近年来,在教导语言模型执行逐步推理以解决复杂数值推理任务方面取得了显著进展。思维链提示(Chain-of-thoughts prompting, CoT)是目前这些任务中最先进的方法。CoT 使用语言模型在多步“思考”过程中同时执行推理和计算。为了将计算与推理分离,我们提出了“思维程序”(Program of Thoughts, PoT)。该方法使用语言模型(主要是 Codex)将推理过程表达为程序,而计算则交由外部计算机执行生成的程序来得出答案。
我们在五个数学应用题数据集(GSM, AQuA, SVAMP, TabMWP, MultiArith)和三个金融问答数据集(FinQA, ConvFinQA, TATQA)上评估了 PoT 在少样本和零样本设置下的性能。在少样本和零样本两种设置下,PoT 在所有评估的数据集上平均比 CoT 的性能高出约 12%。通过将 PoT 与自洽解码(self-consistency decoding)结合,我们可以在所有数学问题数据集上达到最先进的性能,在金融数据集上达到接近最先进的性能。
我们的所有数据和代码已在 GitHub 上发布:https://github.com/wenhuchen/Program-of-Thoughts