作者: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, Y.K. Li, Y. Wu, Daya Guo
提交日期: 2024年2月5日 (最终修订于2024年4月27日)
摘要:
数学推理因其复杂和结构化的特性,对语言模型构成了重大挑战。本文介绍了 DeepSeekMath 7B 模型,该模型在 DeepSeek-Coder-Base-v1.5 7B 的基础上,使用从 Common Crawl 获取的 1200 亿个数学相关标记,结合自然语言和代码数据,进行了持续的预训练。DeepSeekMath 7B 在不依赖外部工具包和投票技术的情况下,在竞赛级别的 MATH 基准测试中取得了 51.7% 的优异成绩,其性能接近 Gemini-Ultra 和 GPT-4 的水平。对 DeepSeekMath 7B 生成的 64 个样本进行自洽性(Self-consistency)采样,在 MATH 上的准确率达到 60.9%。DeepSeekMath 的数学推理能力归功于两个关键因素:首先,我们通过精心设计的数据选择流程,充分利用了公开网络数据的巨大潜力。其次,我们引入了组相对策略优化(Group Relative Policy Optimization, GRPO),这是近端策略优化(Proximal Policy Optimization, PPO)的一个变体,它在增强数学推理能力的同时,优化了 PPO 的内存使用。
主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
- 机器学习 (cs.LG)