作者: Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jianguang Lou, Chongyang Tao, Xiubo Geng, Qingwei Lin, Shifeng Chen, Yansong Tang, Dongmei Zhang
提交日期: 2023年8月18日 (最后修订于2025年6月4日)
摘要:
像 GPT-4 这样的大语言模型在自然语言处理任务中表现出色,包括具有挑战性的数学推理。然而,大多数现有的开源模型仅在大规模互联网数据上进行预训练,没有进行数学相关的优化。本文提出了 WizardMath,它通过将我们提出的“基于进化指令反馈的强化学习”方法应用于数学领域,在不使用外部 Python 工具的情况下,增强了大语言模型的数学思维链推理能力。通过在两个数学推理基准测试(即 GSM8k 和 MATH)上进行大量实验,我们展示了我们模型的非凡能力。值得注意的是,WizardMath-Mistral 7B 以更高的数据效率显著超越了顶级的开源大语言模型。此外,WizardMath 70B 甚至优于 GPT-3.5-Turbo、Claude 2、Gemini Pro 和 GPT-4 早期版本。另外,我们的初步探索强调了指令进化和过程监督在实现卓越数学性能方面的关键作用。
主题分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
- 机器学习 (cs.LG)
备注: 本文已被 ICLR 2025 接收为口头报告。
资源链接: GitHub 项目地址