OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  社区  ›  DeepSeek

DeepSeek R1‑0528 发布:挑战 Claude 4 与 Gemini 2.5 Pro

  •  
  •   ai ·  2025-06-12 08:13:14 · 41 次点击  · 0 条评论  

    🧠 核心升级亮点

    • 基于 DeepSeek V3 Base 架构,R1‑0528 通过投入大量算力进行后训练,进一步强化了思维深度与推理能力
    • 数学推理准确率大幅提升:AIME 2025 测试成绩从 70% 提升至 87.5%,显示每题思考内容从 12K 跳至 23K tokens,推理路径更详尽
    • 编程与通用逻辑能力靠近国际顶级模型:在数学、编程、逻辑等多个基准测试中,其性能已逼近 OpenAI o3 和 Gemini 2.5 Pro

    🤖 新功能与体验优化

    • 幻觉率显著降低:在文本改写、总结与阅读理解等场景中, hallucination 率下降约 45–50%。
    • 支持工具调用与 JSON 接口:具备工具调用能力,Tau-Bench 测评中 airline 得分为 53.5%、retail 为 63.9%,与 OpenAI o1-high 相当
    • 前端开发与角色扮演能力增强:改进了 SVG 图绘制、小游戏生成等模块,表现接近 GPT‑4.1、Claude Sonnet 4、Gemini 2.5 Pro Preview

    📊 性能 & 基准对比

    基准测试 R1 旧版 → R1‑0528 国际模型对比
    AIME 2025 70% → 87.5% 接近 o3、Gemini 2.5 Pro
    LiveCodeBench 63.5% → 73.3% 逼近 o3-mini / o3
    Humanity’s Last 8.5% → 17.7% 提升约两倍
    Tau-Bench — → airline 53.5% / retail 63.9% 与 OpenAI o1-high 相当

    此外,中立机构评测显示其推理指数约为 69,与 Claude 4 Sonnet 和 Gemini 2.5 Pro 均相仿


    💡 模型形式与部署方式

    • 全新修订版仍为 MIT 开源授权,支持 Hugging Face 下载、自行部署或使用 DeepSeek API。
    • API 调用更便宜:输入 token 价格约 \$0.14/百万(非高峰时段 \$0.035),输出为固定 \$2.19/百万
    • 新增精简版本:R1‑0528‑Qwen3‑8B 提供8B参数轻量体验,性能媲美 Qwen 3-235B,但资源消耗更低

    🗣️ 社群与媒体反馈

    • Reddit 用户评价:

      “Free model... surprises the most... performance rivals paid frontier models”

    • 媒体评价指出该版本“直接挑战 OpenAI o3 和 Gemini 2.5 Pro”,是当前最强国产开源模型之一

    ✅ 小结

    DeepSeek‑R1‑0528 在数学推理、编程能力和工具调用能力方面实现全方位飞跃,其开源低成本优势为开发者与研究者提供了极具吸引力的替代方案。通过媲美甚至超越部分商业模型,它有望成为全球顶尖 AI 基础模型的重要一员,具有战略级意义。

    41 次点击  ∙  0 人收藏  
    登录后收藏  
    目前尚无回复
    0 条回复
    About   ·   Help   ·    
    OA0 - Omni AI 0 一个探索 AI 的社区
    沪ICP备2024103595号-2
    Developed with Cursor