英伟达发布 Nemotron 3 Super：AI Agent 推理吞吐量提升 5 倍

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

英伟达近日发布开源大模型 Nemotron 3 Super。该模型拥有 1200 亿参数（120B），并针对 Blackwell 架构 GPU进行了深度优化。官方表示，在处理 AI Agent 系统任务时，该模型的推理吞吐量最高可达到前代模型的 5 倍，同时整体准确率提升约 2 倍。

这一模型的目标并不是单纯追求更大的参数规模，而是专门解决当前 Agent AI 系统面临的两个核心问题：长思考（Long Reasoning）和上下文爆炸（Context Explosion）。

专门为 AI Agent 推理优化

随着 AI Agent 的发展，模型不再只是回答问题，而是需要完成复杂的多步骤任务，例如：

规划任务流程
调用工具
阅读大量上下文
生成代码或执行操作

在这种场景下，模型往往需要进行 长链式推理，并处理非常长的上下文数据。这会带来两个问题：

1. 推理时间变长
复杂任务需要多轮思考和生成，推理延迟明显增加。

2. 成本迅速上升
长上下文会带来巨大的 token 计算成本，尤其是在 Agent 系统中频繁调用模型时。

Nemotron 3 Super 的优化重点正是 降低 Agent 任务中的计算成本，同时提高吞吐能力。

针对 Blackwell GPU 架构优化

Nemotron 3 Super 在设计时针对 英伟达最新的 Blackwell GPU 架构进行了深度适配。

Blackwell GPU 被认为是 AI 推理与训练的重要升级平台，其主要特点包括：

更高的 AI 计算吞吐能力
更高效的内存带宽
针对 Transformer 模型优化的计算单元

通过这些硬件优化，Nemotron 3 Super 在处理复杂 AI Agent 工作负载时可以获得显著性能提升。

多家云厂商已经开始支持

目前 Nemotron 3 Super 已经在多个云平台上线或即将上线，包括：

Google Cloud
Oracle Cloud

此外，Amazon AWS 和 Microsoft Azure 的支持也预计将在近期推出。

这意味着开发者可以直接在主流云平台上部署和运行该模型，而不需要自行搭建复杂的推理环境。

AI Agent 时代的模型方向

Nemotron 3 Super 体现出一个明显趋势：
未来的大模型优化方向不再只是 参数规模竞赛，而是开始围绕 Agent 系统的实际运行效率进行设计。

随着 AI Agent 被越来越多应用在：

自动化编程
企业工作流
数据分析
自动运维

如何降低 长上下文和多步骤推理带来的成本，将成为下一代模型设计的重要问题。

Nemotron 3 Super 的发布，也说明 AI 模型正在从 聊天型模型逐步向 执行型模型演进。

33 次点击 ∙ 0 人收藏

登录后收藏

0 条回复