OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2412.19437

DeepSeek-V3 技术报告:迈向超大规模混合专家模型

 
  cobaltix ·  2025-12-22 05:23:58 · 12 次点击  · 0 条评论  

DeepSeek-V3 技术报告

作者: DeepSeek-AI 等 (共200位作者)

提交日期: 2024年12月27日 (v1), 2025年2月18日修订 (v2)

主题分类: 计算与语言 (cs.CL); 人工智能 (cs.AI)

摘要:
本文介绍了 DeepSeek-V3,一个强大的混合专家 (Mixture-of-Experts, MoE) 语言模型。该模型总参数量为 671B,每个 token 激活 37B 参数。为了实现高效的推理和具有成本效益的训练,DeepSeek-V3 采用了多头潜在注意力 (Multi-head Latent Attention, MLA) 和 DeepSeekMoE 架构,这些架构已在 DeepSeek-V2 中得到充分验证。此外,DeepSeek-V3 首创了一种无辅助损失的负载均衡策略,并设定了多 token 预测训练目标以获得更强的性能。我们在 14.8 万亿个多样且高质量的 token 上对 DeepSeek-V3 进行了预训练,随后进行了监督微调和强化学习阶段,以充分发挥其能力。综合评估表明,DeepSeek-V3 的性能优于其他开源模型,并与领先的闭源模型性能相当。尽管性能卓越,DeepSeek-V3 的完整训练仅需 2.788M H800 GPU 小时。此外,其训练过程非常稳定。在整个训练过程中,我们没有遇到任何不可恢复的损失尖峰或执行任何回滚。模型检查点可在 https://github.com/deepseek-ai/DeepSeek-V3 获取。

12 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 19 ms
Developed with Cursor