作者: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Mingchuan Zhang, Y.K. Li, Y. Wu, Daya Guo
提交日期: 2024年2月5日
摘要:
数学推理因其复杂和结构化的特性,对语言模型构成了重大挑战。本文介绍了 DeepSeekMath 7B,该模型在 DeepSeek-Coder-Base-v1.5 7B 的基础上,使用从 Common Crawl 获取的 1200 亿个数学相关标记,以及自然语言和代码数据,继续进行预训练。DeepSeekMath 7B 在不依赖外部工具包和投票技术的情况下,在竞赛级别的 MATH 基准测试中取得了 51.7% 的优异成绩,接近 Gemini-Ultra 和 GPT-4 的性能水平。对 DeepSeekMath 7B 生成的 64 个样本进行自洽性(Self-consistency)采样,在 MATH 上达到了 60.9% 的准确率。DeepSeekMath 的数学推理能力归功于两个关键因素:首先,我们通过精心设计的数据选择流程,充分利用了公开网络数据的巨大潜力。其次,我们引入了组相对策略优化(Group Relative Policy Optimization, GRPO),这是近端策略优化(Proximal Policy Optimization, PPO)的一个变体,它在增强数学推理能力的同时,优化了 PPO 的内存使用。
主题/分类:
- 计算与语言(cs.CL)
- 人工智能(cs.AI)
- 机器学习(cs.LG)