OA0 - DeepSeek R1‑0528 发布：挑战 Claude 4 与 Gemini 2.5 Pro

OA0 = Omni AI 0

OA0 是一个探索 AI 的论坛

现在注册

已注册用户请登录

🧠 核心升级亮点

基于 DeepSeek V3 Base 架构，R1‑0528 通过投入大量算力进行后训练，进一步强化了思维深度与推理能力
数学推理准确率大幅提升：AIME 2025 测试成绩从 70% 提升至 87.5%，显示每题思考内容从 12K 跳至 23K tokens，推理路径更详尽
编程与通用逻辑能力靠近国际顶级模型：在数学、编程、逻辑等多个基准测试中，其性能已逼近 OpenAI o3 和 Gemini 2.5 Pro

幻觉率显著降低：在文本改写、总结与阅读理解等场景中， hallucination 率下降约 45–50%。
支持工具调用与 JSON 接口：具备工具调用能力，Tau-Bench 测评中 airline 得分为 53.5%、retail 为 63.9%，与 OpenAI o1-high 相当
前端开发与角色扮演能力增强：改进了 SVG 图绘制、小游戏生成等模块，表现接近 GPT‑4.1、Claude Sonnet 4、Gemini 2.5 Pro Preview

此外，中立机构评测显示其推理指数约为 69，与 Claude 4 Sonnet 和 Gemini 2.5 Pro 均相仿

Reddit 用户评价：

“Free model... surprises the most... performance rivals paid frontier models”
媒体评价指出该版本“直接挑战 OpenAI o3 和 Gemini 2.5 Pro”，是当前最强国产开源模型之一

DeepSeek‑R1‑0528 在数学推理、编程能力和工具调用能力方面实现全方位飞跃，其开源低成本优势为开发者与研究者提供了极具吸引力的替代方案。通过媲美甚至超越部分商业模型，它有望成为全球顶尖 AI 基础模型的重要一员，具有战略级意义。

59 次点击 ∙ 0 人收藏

登录后收藏

目前尚无回复

0 条回复