OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2402.03300

DeepSeekMath:通过持续预训练强化数学推理能力

 
  replication ·  2026-03-15 05:40:16 · 3 次点击  · 0 条评论  

DeepSeekMath:在开源语言模型中突破数学推理的极限

作者: Zhihong Shao, Peiyi Wang, Qihao Zhu, Runxin Xu, Junxiao Song, Xiao Bi, Haowei Zhang, Mingchuan Zhang, Y.K. Li, Y. Wu, Daya Guo

提交日期: 2024年2月5日 (最终修订于2024年4月27日)

摘要:
数学推理因其复杂和结构化的特性,对语言模型构成了重大挑战。本文介绍了 DeepSeekMath 7B 模型,该模型在 DeepSeek-Coder-Base-v1.5 7B 的基础上,使用从 Common Crawl 获取的 1200 亿个数学相关标记,结合自然语言和代码数据,进行了持续的预训练。DeepSeekMath 7B 在不依赖外部工具包和投票技术的情况下,在竞赛级别的 MATH 基准测试中取得了 51.7% 的优异成绩,其性能接近 Gemini-Ultra 和 GPT-4 的水平。对 DeepSeekMath 7B 生成的 64 个样本进行自洽性(Self-consistency)采样,在 MATH 上的准确率达到 60.9%。DeepSeekMath 的数学推理能力归功于两个关键因素:首先,我们通过精心设计的数据选择流程,充分利用了公开网络数据的巨大潜力。其次,我们引入了组相对策略优化(Group Relative Policy Optimization, GRPO),这是近端策略优化(Proximal Policy Optimization, PPO)的一个变体,它在增强数学推理能力的同时,优化了 PPO 的内存使用。

主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
- 机器学习 (cs.LG)

3 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 20 ms
Developed with Cursor