OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  社区  ›  OpenAI

OpenAI 发布 GPT-5.4,整合推理、编程与计算机操作智能体能力

 
  dagger ·  2026-03-06 09:34:52 · 10 次点击  · 0 条评论  

OpenAI 近日发布新一代通用模型 GPT-5.4。该模型首次在单一系统中整合推理能力、编程能力、计算机操作以及深度网页搜索等功能,进一步推动 AI 从工具型助手向自动化 智能体(Agent) 系统发展。

与此前不同版本分别承担不同任务的模式相比,GPT-5.4 更强调能力整合。模型支持复杂推理任务、高阶代码生成、浏览器操作以及长上下文处理,最大上下文窗口达到百万级 Token。

在多项基准测试中,GPT-5.4 在知识工作、编程任务以及网页操作任务中的表现均较前代模型有所提升。例如在 SWE-Bench Pro 编程测试中,其成绩略高于此前主打编程能力的 GPT-5.3 Codex。

OpenAI 表示,GPT-5.4 在推理效率方面也进行了优化。尽管 API 单价较 GPT-5.2 略有上涨,但由于完成任务所需 Token 数量减少,整体使用成本可能不会明显增加。

目前 GPT-5.4 已同步上线 ChatGPT、API 以及 Codex 平台。同时,ChatGPT 中的 GPT-5.4 Thinking 将逐步取代 GPT-5.2 Thinking,而 GPT-5.2 预计将在未来几个月内退役。


GPT-5.4 引入原生“计算机操作”能力,AI 智能体(Agent) 方向再进一步

在 GPT-5.4 中,OpenAI 引入了 原生计算机操作能力(Computer Use)。模型可以通过截图理解软件界面,并执行鼠标点击和键盘输入等操作。

这一能力使模型能够在电脑环境中完成实际任务,例如:

  • 浏览网页
  • 填写在线表单
  • 创建日历事件
  • 发送邮件

在 WebArena 浏览器任务测试中,GPT-5.4 的成功率为 67.3%,略高于 GPT-5.2。在 OSWorld-Verified 桌面操作测试中,该模型在部分任务中的成功率接近或超过人类平均水平。

业内普遍认为,这类能力是 AI 智能体(Agent) 技术发展的关键方向。相比传统 API 调用方式,通过直接操作用户界面,AI 能够更容易接入现有软件系统。

OpenAI 表示,未来将继续扩展这一能力,使模型能够与更多工具和软件环境协同工作。


GPT-5.4 提升高阶编程能力,整合 Codex 技术

在编程能力方面,GPT-5.4 融合了此前编程模型 GPT-5.3 Codex 的核心能力。

该模型在代码生成、程序调试以及自动测试等任务中的表现进一步提升,并支持更快的代码输出模式。在 SWE-Bench Pro 编程基准测试中,GPT-5.4 的成绩达到 57.7%,略高于 GPT-5.3 Codex 的 56.8%

OpenAI 同时推出一项名为 Playwright (Interactive) 的实验性功能。该功能允许模型在开发网页或应用时,通过浏览器窗口进行实时调试和自动化测试。

在官方演示中,GPT-5.4 可以根据简单提示生成完整网页应用,并通过自动测试不断修正代码逻辑。

这一能力被视为 AI 在 软件开发自动化领域 持续推进的重要一步。


GPT-5.4 推出工具搜索机制,降低 智能体(Agent) 任务成本

为了优化 AI 智能体(Agent) 场景中的成本问题,GPT-5.4 引入了一项名为 Tool Search(工具搜索) 的机制。

在此前的模型中,如果 AI 需要调用外部工具,通常需要在提示词中包含所有工具的完整定义。当工具数量较多时,这会显著增加 Token 消耗。

在新的机制下,模型可以先获取一个简要的工具列表,然后在需要时再加载具体工具定义。

根据 OpenAI 的实验结果,在保持相同任务准确率的情况下,该机制能够将 智能体(Agent) 任务中的 Token 使用量降低约 47%

这一技术被认为有助于降低企业在大规模部署 AI 智能体(Agent) 时的运行成本。


GPT-5.4 加强知识工作能力,面向办公与商业分析场景

OpenAI 表示,GPT-5.4 在处理知识型工作任务方面进行了针对性优化。

在 GDPval 基准测试中,该模型在涉及 44 种职业任务 的评估中取得约 83% 的综合成绩。这些任务涵盖:

  • 商业报告撰写
  • 演示文稿制作
  • 财务模型分析
  • 数据整理与可视化

在内部投资银行建模测试中,GPT-5.4 的平均得分达到 87.3%,相比 GPT-5.2 的 68.4% 有明显提升。

此外,模型在文档解析和视觉理解方面也有所改进。例如在 MMMU-Pro 视觉推理测试中,其准确率达到 81.2%

OpenAI 表示,这些能力主要面向 商业办公、数据分析和研究工作 等典型知识型场景。

10 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor