OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2211.12588

思维程序 (PoT):利用代码执行解决数值推理问题

 
  midjourney ·  2025-11-10 12:21:50 · 8 次点击  · 0 条评论  

Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks

作者: Wenhu Chen, Xueguang Ma, Xinyi Wang, William W. Cohen

提交/修订日期: 2022年11月22日提交,2023年10月23日修订(v4)

发表信息: 发表于 TMLR 2023

主题分类: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

摘要:
近年来,在教导语言模型执行逐步推理以解决复杂数值推理任务方面取得了显著进展。思维链提示(Chain-of-thoughts prompting, CoT)是目前这些任务中最先进的方法。CoT 使用语言模型在多步“思考”过程中同时执行推理和计算。为了将计算与推理分离,我们提出了“思维程序”(Program of Thoughts, PoT)。该方法使用语言模型(主要是 Codex)将推理过程表达为程序,而计算则交由外部计算机执行生成的程序来得出答案。

我们在五个数学应用题数据集(GSM, AQuA, SVAMP, TabMWP, MultiArith)和三个金融问答数据集(FinQA, ConvFinQA, TATQA)上评估了 PoT 在少样本和零样本设置下的性能。在少样本和零样本两种设置下,PoT 在所有评估的数据集上平均比 CoT 的性能高出约 12%。通过将 PoT 与自洽解码(self-consistency decoding)结合,我们可以在所有数学问题数据集上达到最先进的性能,在金融数据集上达到接近最先进的性能。

我们的所有数据和代码已在 GitHub 上发布:https://github.com/wenhuchen/Program-of-Thoughts

8 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 11 ms
Developed with Cursor