OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2309.12284

MetaMath:用高质量数学数据持续强化模型推理能力

 
  attack ·  2026-05-17 11:01:23 · 9 次点击  · 0 条评论  

MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models

作者: Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu

分类: cs.CL (Computation and Language), cs.AI (Artificial Intelligence)

摘要:
大型语言模型(LLMs)推动了自然语言理解的发展,并展现出了卓越的问题解决能力。然而,由于数学问题复杂的推理过程,大多数现有的开源 LLMs(如 LLaMA-2)在数学问题求解上仍远未达到令人满意的水平。为弥补这一差距,我们提出了 MetaMath——一个专门针对数学推理进行微调的语言模型。具体来说,我们首先通过从多个角度重写问题来“引导”(Bootstrap)数学问题,而无需额外的知识,从而生成了一个名为 MetaMathQA 的新数据集。然后,我们在 MetaMathQA 上对 LLaMA-2 模型进行微调。在数学推理的两个流行基准测试(GSM8K 和 MATH)上的实验结果表明,MetaMath 以显著的优势超越了一系列开源 LLMs。我们的 MetaMath-7B 模型在 GSM8K 上达到了 66.4%,在 MATH 上达到了 19.4%,分别超过了同尺寸下最先进模型 11.5% 和 8.7%。值得注意的是,MetaMath-70B 在 GSM8K 上达到了 82.3% 的准确率,略高于 GPT-3.5-Turbo。我们公开发布了 MetaMathQA 数据集、不同模型大小的 MetaMath 模型以及训练代码。

关键信息:
- 核心方法: 提出一种无需额外知识即可从多个角度重写数学问题的引导方法,以生成更多样化的训练数据。
- 模型发布: 基于 LLaMA-2 微调,发布了 7B 和 70B 等不同大小的模型。
- 主要成果:
- MetaMath-7B: GSM8K 66.4%, MATH 19.4%
- MetaMath-70B: GSM8K 82.3% (优于 GPT-3.5-Turbo)
- 状态: ICLR 2024 (Spotlight)
- 项目页面: https://meta-math.github.io/

9 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 24 ms
Developed with Cursor