作者: Ke Wang, Houxing Ren, Aojun Zhou, Zimu Lu, Sichun Luo, Weikang Shi, Renrui Zhang, Linqi Song, Mingjie Zhan, Hongsheng Li
提交日期: 2023年10月5日
摘要:
最近发布的 GPT-4 Code Interpreter 在解决具有挑战性的数学问题上表现出了卓越的能力,这主要归功于其能够无缝地结合自然语言进行推理、生成代码、执行代码并根据执行结果继续推理。在本文中,我们提出了一种微调开源语言模型的方法,使其能够使用代码来建模和推导数学方程,从而增强其数学推理能力。我们提出了一种生成新颖且高质量数据集的方法,该数据集包含数学问题及其基于代码的解决方案,称为 MathCodeInstruct。每个解决方案都交织着自然语言、代码和执行结果。我们还引入了一种定制的监督微调和推理方法。这种方法产生了 MathCoder 模型系列,这是一系列能够生成基于代码的解决方案来解决复杂数学问题的模型。令人印象深刻的是,MathCoder 模型在 MATH (45.2%) 和 GSM8K (83.9%) 数据集上取得了开源 LLMs 中最先进的分数,显著优于其他开源替代方案。值得注意的是,MathCoder 模型不仅在 GSM8K 和 MATH 上超越了 ChatGPT-3.5 和 PaLM-2,还在竞赛级别的 MATH 数据集上超越了 GPT-4。数据集和模型将在 https://github.com/mathllm/MathCoder 发布。
主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
- 计算机视觉与模式识别 (cs.CV)
- 机器学习 (cs.LG)