作者: Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Minlie Huang, Nan Duan, Weizhu Chen
提交/修订日期: 2023年9月29日提交,2024年2月21日修订 (v4)
主题/分类: 计算与语言 (cs.CL); 人工智能 (cs.AI)
会议信息: ICLR 2024 (前两位作者贡献相同)
大型语言模型在各种语言任务上取得了显著进展,但在复杂数学问题上仍然存在困难。本文提出了 ToRA,一个系列的工具集成推理智能体,旨在通过将自然语言推理与外部工具(例如计算库和符号求解器)的使用无缝集成来解决具有挑战性的数学问题,从而融合语言的分析能力和工具的计算效率。
为了训练 ToRA,研究团队在数学数据集上策划了交互式的工具使用轨迹,对标注应用模仿学习,并提出了输出空间塑形以进一步优化模型的推理行为。结果表明,ToRA 模型在 10 个数学推理数据集上,在所有规模上都显著优于开源模型,平均绝对提升 13%-19%。
值得注意的是,ToRA-7B 在竞赛级数据集 MATH 上达到了 44.6% 的准确率,以 22% 的绝对优势超越了当时最好的开源模型 WizardMath-70B。ToRA-Code-34B 也是首个在 MATH 上准确率超过 50% 的开源模型,显著优于 GPT-4 的思维链 (CoT) 结果,并且与 GPT-4 使用程序解题的结果具有竞争力。
此外,本文对工具交互在数学推理方面的益处和剩余挑战进行了全面分析,为未来的研究提供了宝贵的见解。