MAmmoTH: Building Math Generalist Models through Hybrid Instruction Tuning
Xiang Yue, Xingwei Qu, Ge Zhang, Yao Fu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen
(注:Xiang Yue 与 Wenhu Chen 对本文贡献相等)
本文提出了 MAmmoTH 系列开源大语言模型,专门用于通用的数学问题求解。MAmmoTH 模型在 MathInstruct 上训练,这是一个精心策划的指令微调数据集。MathInstruct 由 13 个数学数据集及其中间推理过程组成,其中 6 个数据集的中期推理过程由作者全新构造。MathInstruct 具有独特的混合推理模式:思维链(CoT) 与 程序思维(PoT) 相结合,并确保对数学各领域的广泛覆盖。CoT 与 PoT 的混合不仅释放了工具使用的潜力,还能为不同的数学问题启用不同的思考过程。
实验结果显示,MAmmoTH 系列在所有规模上的九个数学推理数据集上均大幅优于现有开源模型,平均准确率提升 16% 到 32%。值得注意的是,MAmmoTH-7B 在竞赛级数据集 MATH 上达到 33% 的准确率,比最佳开源 7B 模型(WizardMath)高出 23%;MAmmoTH-34B 在 MATH 上达到 44% 的准确率,甚至超越了 GPT-4 的 CoT 结果。该工作强调了多样化问题覆盖和混合推理在开发优秀数学通才模型中的重要性。