DeepSeekMath：在开源语言模型中突破数学推理的极限

作者： Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, Y.K. Li, Y. Wu, Daya Guo

提交日期： 2024年2月5日 (最终修订于2024年4月27日)

摘要：
数学推理因其复杂和结构化的特性，对语言模型构成了重大挑战。本文介绍了 DeepSeekMath 7B 模型，该模型在 DeepSeek-Coder-Base-v1.5 7B 的基础上，使用从 Common Crawl 获取的 1200 亿个数学相关标记，结合自然语言和代码数据，进行了持续的预训练。DeepSeekMath 7B 在不依赖外部工具包和投票技术的情况下，在竞赛级别的 MATH 基准测试中取得了 51.7% 的优异成绩，其性能接近 Gemini-Ultra 和 GPT-4 的水平。对 DeepSeekMath 7B 生成的 64 个样本进行自洽性（Self-consistency）采样，在 MATH 上的准确率达到 60.9%。DeepSeekMath 的数学推理能力归功于两个关键因素：首先，我们通过精心设计的数据选择流程，充分利用了公开网络数据的巨大潜力。其次，我们引入了组相对策略优化（Group Relative Policy Optimization, GRPO），这是近端策略优化（Proximal Policy Optimization, PPO）的一个变体，它在增强数学推理能力的同时，优化了 PPO 的内存使用。

主题/分类：
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
- 机器学习 (cs.LG)

论文地址：https://arxiv.org/abs/2402.03300

17 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

DeepSeekMath：通过持续预训练强化数学推理能力

DeepSeekMath：在开源语言模型中突破数学推理的极限