🧠 核心升级亮点
- 基于 DeepSeek V3 Base 架构,R1‑0528 通过投入大量算力进行后训练,进一步强化了思维深度与推理能力
- 数学推理准确率大幅提升:AIME 2025 测试成绩从 70% 提升至 87.5%,显示每题思考内容从 12K 跳至 23K tokens,推理路径更详尽
- 编程与通用逻辑能力靠近国际顶级模型:在数学、编程、逻辑等多个基准测试中,其性能已逼近 OpenAI o3 和 Gemini 2.5 Pro
🤖 新功能与体验优化
- 幻觉率显著降低:在文本改写、总结与阅读理解等场景中, hallucination 率下降约 45–50%。
- 支持工具调用与 JSON 接口:具备工具调用能力,Tau-Bench 测评中 airline 得分为 53.5%、retail 为 63.9%,与 OpenAI o1-high 相当
- 前端开发与角色扮演能力增强:改进了 SVG 图绘制、小游戏生成等模块,表现接近 GPT‑4.1、Claude Sonnet 4、Gemini 2.5 Pro Preview
📊 性能 & 基准对比
基准测试 |
R1 旧版 → R1‑0528 |
国际模型对比 |
AIME 2025 |
70% → 87.5% |
接近 o3、Gemini 2.5 Pro |
LiveCodeBench |
63.5% → 73.3% |
逼近 o3-mini / o3 |
Humanity’s Last |
8.5% → 17.7% |
提升约两倍 |
Tau-Bench |
— → airline 53.5% / retail 63.9% |
与 OpenAI o1-high 相当 |
此外,中立机构评测显示其推理指数约为 69,与 Claude 4 Sonnet 和 Gemini 2.5 Pro 均相仿
💡 模型形式与部署方式
- 全新修订版仍为 MIT 开源授权,支持 Hugging Face 下载、自行部署或使用 DeepSeek API。
- API 调用更便宜:输入 token 价格约 \$0.14/百万(非高峰时段 \$0.035),输出为固定 \$2.19/百万
- 新增精简版本:R1‑0528‑Qwen3‑8B 提供8B参数轻量体验,性能媲美 Qwen 3-235B,但资源消耗更低
🗣️ 社群与媒体反馈
- Reddit 用户评价:
“Free model... surprises the most... performance rivals paid frontier models”
- 媒体评价指出该版本“直接挑战 OpenAI o3 和 Gemini 2.5 Pro”,是当前最强国产开源模型之一
✅ 小结
DeepSeek‑R1‑0528 在数学推理、编程能力和工具调用能力方面实现全方位飞跃,其开源低成本优势为开发者与研究者提供了极具吸引力的替代方案。通过媲美甚至超越部分商业模型,它有望成为全球顶尖 AI 基础模型的重要一员,具有战略级意义。