英伟达近日发布开源大模型 Nemotron 3 Super。该模型拥有 1200 亿参数(120B),并针对 Blackwell 架构 GPU进行了深度优化。官方表示,在处理 AI Agent 系统任务时,该模型的推理吞吐量最高可达到前代模型的 5 倍,同时整体准确率提升约 2 倍。
这一模型的目标并不是单纯追求更大的参数规模,而是专门解决当前 Agent AI 系统面临的两个核心问题:长思考(Long Reasoning)和上下文爆炸(Context Explosion)。
随着 AI Agent 的发展,模型不再只是回答问题,而是需要完成复杂的多步骤任务,例如:
在这种场景下,模型往往需要进行 长链式推理,并处理非常长的上下文数据。这会带来两个问题:
1. 推理时间变长
复杂任务需要多轮思考和生成,推理延迟明显增加。
2. 成本迅速上升
长上下文会带来巨大的 token 计算成本,尤其是在 Agent 系统中频繁调用模型时。
Nemotron 3 Super 的优化重点正是 降低 Agent 任务中的计算成本,同时提高吞吐能力。
Nemotron 3 Super 在设计时针对 英伟达最新的 Blackwell GPU 架构进行了深度适配。
Blackwell GPU 被认为是 AI 推理与训练的重要升级平台,其主要特点包括:
通过这些硬件优化,Nemotron 3 Super 在处理复杂 AI Agent 工作负载时可以获得显著性能提升。
目前 Nemotron 3 Super 已经在多个云平台上线或即将上线,包括:
此外,Amazon AWS 和 Microsoft Azure 的支持也预计将在近期推出。
这意味着开发者可以直接在主流云平台上部署和运行该模型,而不需要自行搭建复杂的推理环境。
Nemotron 3 Super 体现出一个明显趋势:
未来的大模型优化方向不再只是 参数规模竞赛,而是开始围绕 Agent 系统的实际运行效率进行设计。
随着 AI Agent 被越来越多应用在:
如何降低 长上下文和多步骤推理带来的成本,将成为下一代模型设计的重要问题。
Nemotron 3 Super 的发布,也说明 AI 模型正在从 聊天型模型逐步向 执行型模型演进。