DeepSeek-V3 — 强大的开源混合专家 (MoE) 模型

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

论文链接👁️

1. 简介

我们推出 DeepSeek-V3，一个强大的专家混合（MoE）语言模型，总参数量为 671B，每个 token 激活 37B 参数。
为了实现高效的推理和经济的训练，DeepSeek-V3 采用了在 DeepSeek-V2 中经过充分验证的多头潜在注意力（MLA）和 DeepSeekMoE 架构。
此外，DeepSeek-V3 开创了一种无需辅助损失的负载均衡策略，并设定了多 token 预测训练目标以获得更强的性能。
我们在 14.8 万亿个多样且高质量的 token 上对 DeepSeek-V3 进行了预训练，随后通过监督微调和强化学习阶段来充分释放其能力。
综合评估表明，DeepSeek-V3 超越了其他开源模型，并达到了与领先闭源模型相当的性能。
尽管性能卓越，DeepSeek-V3 的完整训练仅需 2.788M H800 GPU 小时。
此外，其训练过程非常稳定。
在整个训练过程中，我们没有遇到任何不可恢复的损失尖峰或执行任何回滚。

2. 模型概览

架构：创新的负载均衡策略与训练目标

在 DeepSeek-V2 高效架构的基础上，我们开创了一种无需辅助损失的负载均衡策略，最大限度地减少了因鼓励负载均衡而导致的性能下降。
我们研究了多 token 预测（MTP）目标，并证明其对模型性能有益。它也可用于推测解码以加速推理。

预训练：追求极致的训练效率

我们设计了一个 FP8 混合精度训练框架，并首次在超大规模模型上验证了 FP8 训练的可行性和有效性。
通过算法、框架和硬件的协同设计，我们克服了跨节点 MoE 训练中的通信瓶颈，几乎实现了计算与通信的完全重叠。这显著提升了我们的训练效率并降低了训练成本，使我们能够进一步扩大模型规模而无需额外开销。
仅以 2.664M H800 GPU 小时的经济成本，我们在 14.8T token 上完成了 DeepSeek-V3 的预训练，产出了目前最强的开源基础模型。预训练后的后续训练阶段仅需 0.1M GPU 小时。

后训练：来自 DeepSeek-R1 的知识蒸馏

我们引入了一种创新方法，将长思维链（CoT）模型（具体来自 DeepSeek R1 系列模型之一）的推理能力蒸馏到标准 LLM 中，特别是 DeepSeek-V3。我们的流程巧妙地将 R1 的验证和反思模式融入 DeepSeek-V3，显著提升了其推理性能。同时，我们也对 DeepSeek-V3 的输出风格和长度保持了控制。

3. 模型下载

| **模型** | **总参数量** | **激活参数量** | **上下文长度** | **下载** | | :------------: | :------------: | :------------: | :------------: | :------------: | | DeepSeek-V3-Base | 671B | 37B | 128K | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3-Base) | | DeepSeek-V3 | 671B | 37B | 128K | [🤗 Hugging Face](https://huggingface.co/deepseek-ai/DeepSeek-V3) |

[!NOTE]
Hugging Face 上的 DeepSeek-V3 模型总大小为 685B，其中包括 671B 的主模型权重和 14B 的多 token 预测（MTP）模块权重。

为确保最佳性能和灵活性，我们与开源社区和硬件供应商合作，提供了多种本地运行模型的方式。如需分步指导，请查看第 6 节：如何本地运行。

对于希望深入研究的开发者，我们建议查阅 README_WEIGHTS.md 以了解主模型权重和多 token 预测（MTP）模块的详细信息。请注意，MTP 支持目前在社区中处于积极开发阶段，我们欢迎您的贡献和反馈。

4. 评估结果

基础模型

标准基准测试

| | 基准测试 (指标) | # Shots | DeepSeek-V2 | Qwen2.5 72B | LLaMA3.1 405B | DeepSeek-V3 | |---|-------------------|----------|--------|-------------|---------------|---------| | | 架构 | - | MoE | Dense | Dense | MoE | | | 激活参数量 | - | 21B | 72B | 405B | 37B | | | 总参数量 | - | 236B | 72B | 405B | 671B | | 英语 | Pile-test (BPB) | - | 0.606 | 0.638 | **0.542** | 0.548 | | | BBH (EM) | 3-shot | 78.8 | 79.8 | 82.9 | **87.5** | | | MMLU (Acc.) | 5-shot | 78.4 | 85.0 | 84.4 | **87.1** | | | MMLU-Redux (Acc.) | 5-shot | 75.6 | 83.2 | 81.3 | **86.2** | | | MMLU-Pro (Acc.) | 5-shot | 51.4 | 58.3 | 52.8 | **64.4** | | | DROP (F1) | 3-shot | 80.4 | 80.6 | 86.0 | **89.0** | | | ARC-Easy (Acc.) | 25-shot | 97.6 | 98.4 | 98.4 | **98.9** | | | ARC-Challenge (Acc.) | 25-shot | 92.2 | 94.5 | **95.3** | **95.3** | | | HellaSwag (Acc.) | 10-shot | 87.1 | 84.8 | **89.2** | 88.9 | | | PIQA (Acc.) | 0-shot | 83.9 | 82.6 | **85.9** | 84.7 | | | WinoGrande (Acc.) | 5-shot | **86.3** | 82.3 | 85.2 | 84.9 | | | RACE-Middle (Acc.) | 5-shot | 73.1 | 68.1 | **74.2** | 67.1 | | | RACE-High (Acc.) | 5-shot | 52.6 | 50.3 | **56.8** | 51.3 | | | TriviaQA (EM) | 5-shot | 80.0 | 71.9 | 82.7 | **82.9** | | | NaturalQuestions (EM) | 5-shot | 38.6 | 33.2 | **41.5** | 40.0 | | | AGIEval (Acc.) | 0-shot | 57.5 | 75.8 | 60.6 | **79.6** | | 代码 | HumanEval (Pass@1) | 0-shot | 43.3 | 53.0 | 54.9 | **65.2** | | | MBPP (Pass@1) | 3-shot | 65.0 | 72.6 | 68.4 | **75.4** | | | LiveCodeBench-Base (Pass@1) | 3-shot | 11.6 | 12.9 | 15.5 | **19.4** | | | CRUXEval-I (Acc.) | 2-shot | 52.5 | 59.1 | 58.5 | **67.3** | | | CRUXEval-O (Acc.) | 2-shot | 49.8 | 59.9 | 59.9 | **69.8** | | 数学 | GSM8K (EM) | 8-shot | 81.6 | 88.3 | 83.5 | **89.3** | | | MATH (EM) | 4-shot | 43.4 | 54.4 | 49.0 | **61.6** | | | MGSM (EM) | 8-shot | 63.6 | 76.2 | 69.9 | **79.8** | | | CMath (EM) | 3-shot | 78.7 | 84.5 | 77.3 | **90.7** | | 中文 | CLUEWSC (EM) | 5-shot | 82.0 | 82.5 | **83.0** | 82.7 | | | C-Eval (Acc.) | 5-shot | 81.4 | 89.2 | 72.5 | **90.1** | | | CMMLU (Acc.) | 5-shot | 84.0 | **89.5** | 73.7 | 88.8 | | | CMRC (EM) | 1-shot | **77.4** | 75.8 | 76.0 | 76.3 | | | C3 (Acc.) | 0-shot | 77.4 | 76.7 | **79.7** | 78.6 | | | CCPM (Acc.) | 0-shot | **93.0** | 88.5 | 78.6 | 92.0 | | 多语言 | MMMLU-non-English (Acc.) | 5-shot | 64.0 | 74.8 | 73.8 | **79.4** |

[!NOTE]
最佳结果以粗体显示。差距不超过 0.3 的分数被视为处于同一水平。DeepSeek-V3 在大多数基准测试中取得了最佳性能，尤其是在数学和代码任务上。
更多评估细节，请查阅我们的论文。

上下文窗口

在“大海捞针”（NIAH）测试中的评估结果。DeepSeek-V3 在高达 128K 的所有上下文窗口长度下均表现良好。

对话模型

标准基准测试（大于 67B 的模型）

| | **基准测试 (指标)** | **DeepSeek V2-0506** | **DeepSeek V2.5-0905** | **Qwen2.5 72B-Inst.** | **Llama3.1 405B-Inst.** | **Claude-3.5-Sonnet-1022** | **GPT-4o 0513** | **DeepSeek V3** | |---|---------------------|---------------------|----------------------|---------------------|----------------------|---------------------------|----------------|----------------| | | 架构 | MoE | MoE | Dense | Dense | - | - | MoE | | | 激活参数量 | 21B | 21B | 72B | 405B | - | - | 37B | | | 总参数量 | 236B | 236B | 72B | 405B | - | - | 671B | | 英语 | MMLU (EM) | 78.2 | 80.6 | 85.3 | **88.6** | **88.3** | 87.2 | **88.5** | | | MMLU-Redux (EM) | 77.9 | 80.3 | 85.6 | 86.2 | **88.9** | 88.0 | **89.1** | | | MMLU-Pro (EM) | 58.5 | 66.2 | 71.6 | 73.3 | **78.0** | 72.6 | 75.9 | | | DROP (3-shot F1) | 83.0 | 87.8 | 76.7 | 88.7 | 88.3 | 83.7 | **91.6** | | | IF-Eval (Prompt Strict) | 57.7 | 80.6 | 84.1 | 86.0 | **86.5** | 84.3 | 86.1 | | | GPQA-Diamond (Pass@1) | 35.3 | 41.3 | 49.0 | 51.1 | **65.0** | 49.9 | 59.1 | | | SimpleQA (Correct) | 9.0 | 10.2 | 9.1 | 17.1 | 28.4 | **38.2** | 24.9 | | | FRAMES (Acc.) | 66.9 | 65.4 | 69.8 | 70.0 | 72.5 | **80.5** | 73.3 | | | LongBench v2 (Acc.) | 31.6 | 35.4 | 39.4 | 36.1 | 41.0 | 48.1 | **48.7** | | 代码 | HumanEval-Mul (Pass@1) | 69.3 | 77.4 | 77.3 | 77.2 | 81.7 | 80.5 | **82.6** | | | LiveCodeBench (Pass@1-COT) | 18.8 | 29.2 | 31.1 | 28.4 | 36.3 | 33.4 | **40.5** | | | LiveCodeBench (Pass@1) | 20.3 | 28.4 | 28.7 | 30.1 | 32.8 | 34.2 | **37.6** | | | Codeforces (Percentile) | 17.5 | 35.6 | 24.8 | 25.3 | 20.3 | 23.6 | **51.6** | | | SWE Verified (Resolved) | - | 22.6 | 23.8 | 24.5 | **50.8** | 38.8 | 42.0 | | | Aider-Edit (Acc.) | 60.3 | 71.6 | 65.4 | 63.9 | **84.2** | 72.9 | 79.7 | | | Aider-Polyglot (Acc.) | - | 18.2 | 7.6 | 5.8 | 45.3 | 16.0 | **49.6** | | 数学 | AIME 2024 (Pass@1) | 4.6 | 16.7 | 23.3 | 23.3 | 16.0 |

项目地址：https://github.com/deepseek-ai/DeepSeek-V3

65 次点击 ∙ 0 人收藏

登录后收藏

0 条回复