DeepSeekMath: 在开源语言模型中突破数学推理的极限

作者： Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, Y.K. Li, Y. Wu, Daya Guo

提交日期： 2024年2月5日

摘要：
数学推理因其复杂和结构化的特性，对语言模型构成了重大挑战。本文介绍了 DeepSeekMath 7B，该模型在 DeepSeek-Coder-Base-v1.5 7B 的基础上，使用从 Common Crawl 获取的 1200 亿个数学相关标记，以及自然语言和代码数据，继续进行预训练。DeepSeekMath 7B 在不依赖外部工具包和投票技术的情况下，在竞赛级别的 MATH 基准测试中取得了 51.7% 的优异成绩，接近 Gemini-Ultra 和 GPT-4 的性能水平。对 DeepSeekMath 7B 生成的 64 个样本进行自洽性（Self-consistency）采样，在 MATH 上达到了 60.9% 的准确率。DeepSeekMath 的数学推理能力归功于两个关键因素：首先，我们通过精心设计的数据选择流程，充分利用了公开网络数据的巨大潜力。其次，我们引入了组相对策略优化（Group Relative Policy Optimization, GRPO），这是近端策略优化（Proximal Policy Optimization, PPO）的一个变体，它在增强数学推理能力的同时，优化了 PPO 的内存使用。

主题/分类：
- 计算与语言（cs.CL）
- 人工智能（cs.AI）
- 机器学习（cs.LG）

论文地址：https://arxiv.org/abs/2402.03300v1

39 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

DeepSeekMath：专注数学推理与定理求解的语言模型

DeepSeekMath: 在开源语言模型中突破数学推理的极限