MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models

作者： Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu

分类： cs.CL (Computation and Language), cs.AI (Artificial Intelligence)

摘要：
大型语言模型（LLMs）推动了自然语言理解的发展，并展现出了卓越的问题解决能力。然而，由于数学问题复杂的推理过程，大多数现有的开源 LLMs（如 LLaMA-2）在数学问题求解上仍远未达到令人满意的水平。为弥补这一差距，我们提出了 MetaMath——一个专门针对数学推理进行微调的语言模型。具体来说，我们首先通过从多个角度重写问题来“引导”（Bootstrap）数学问题，而无需额外的知识，从而生成了一个名为 MetaMathQA 的新数据集。然后，我们在 MetaMathQA 上对 LLaMA-2 模型进行微调。在数学推理的两个流行基准测试（GSM8K 和 MATH）上的实验结果表明，MetaMath 以显著的优势超越了一系列开源 LLMs。我们的 MetaMath-7B 模型在 GSM8K 上达到了 66.4%，在 MATH 上达到了 19.4%，分别超过了同尺寸下最先进模型 11.5% 和 8.7%。值得注意的是，MetaMath-70B 在 GSM8K 上达到了 82.3% 的准确率，略高于 GPT-3.5-Turbo。我们公开发布了 MetaMathQA 数据集、不同模型大小的 MetaMath 模型以及训练代码。

关键信息：
- 核心方法： 提出一种无需额外知识即可从多个角度重写数学问题的引导方法，以生成更多样化的训练数据。
- 模型发布： 基于 LLaMA-2 微调，发布了 7B 和 70B 等不同大小的模型。
- 主要成果：
- MetaMath-7B: GSM8K 66.4%, MATH 19.4%
- MetaMath-70B: GSM8K 82.3% (优于 GPT-3.5-Turbo)
- 状态： ICLR 2024 (Spotlight)
- 项目页面： https://meta-math.github.io/

论文地址：https://arxiv.org/abs/2309.12284

35 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

MetaMath：用高质量数学数据持续强化模型推理能力

MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models