OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  社区  ›  NVIDIA

英伟达发布 Nemotron 3 Super:AI Agent 推理吞吐量提升 5 倍

 
  dairy ·  2026-03-12 01:29:52 · 2 次点击  · 0 条评论  

英伟达近日发布开源大模型 Nemotron 3 Super。该模型拥有 1200 亿参数(120B),并针对 Blackwell 架构 GPU进行了深度优化。官方表示,在处理 AI Agent 系统任务时,该模型的推理吞吐量最高可达到前代模型的 5 倍,同时整体准确率提升约 2 倍

这一模型的目标并不是单纯追求更大的参数规模,而是专门解决当前 Agent AI 系统面临的两个核心问题:长思考(Long Reasoning)上下文爆炸(Context Explosion)


专门为 AI Agent 推理优化

随着 AI Agent 的发展,模型不再只是回答问题,而是需要完成复杂的多步骤任务,例如:

  • 规划任务流程
  • 调用工具
  • 阅读大量上下文
  • 生成代码或执行操作

在这种场景下,模型往往需要进行 长链式推理,并处理非常长的上下文数据。这会带来两个问题:

1. 推理时间变长
复杂任务需要多轮思考和生成,推理延迟明显增加。

2. 成本迅速上升
长上下文会带来巨大的 token 计算成本,尤其是在 Agent 系统中频繁调用模型时。

Nemotron 3 Super 的优化重点正是 降低 Agent 任务中的计算成本,同时提高吞吐能力


针对 Blackwell GPU 架构优化

Nemotron 3 Super 在设计时针对 英伟达最新的 Blackwell GPU 架构进行了深度适配。

Blackwell GPU 被认为是 AI 推理与训练的重要升级平台,其主要特点包括:

  • 更高的 AI 计算吞吐能力
  • 更高效的内存带宽
  • 针对 Transformer 模型优化的计算单元

通过这些硬件优化,Nemotron 3 Super 在处理复杂 AI Agent 工作负载时可以获得显著性能提升。


多家云厂商已经开始支持

目前 Nemotron 3 Super 已经在多个云平台上线或即将上线,包括:

  • Google Cloud
  • Oracle Cloud

此外,Amazon AWSMicrosoft Azure 的支持也预计将在近期推出。

这意味着开发者可以直接在主流云平台上部署和运行该模型,而不需要自行搭建复杂的推理环境。


AI Agent 时代的模型方向

Nemotron 3 Super 体现出一个明显趋势:
未来的大模型优化方向不再只是 参数规模竞赛,而是开始围绕 Agent 系统的实际运行效率进行设计。

随着 AI Agent 被越来越多应用在:

  • 自动化编程
  • 企业工作流
  • 数据分析
  • 自动运维

如何降低 长上下文和多步骤推理带来的成本,将成为下一代模型设计的重要问题。

Nemotron 3 Super 的发布,也说明 AI 模型正在从 聊天型模型逐步向 执行型模型演进。

2 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor