OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

OpenAI 近日发布新一代通用模型 GPT-5.4。该模型首次在单一系统中整合推理能力、编程能力、计算机操作以及深度网页搜索等功能，进一步推动 AI 从工具型助手向自动化智能体(Agent) 系统发展。

与此前不同版本分别承担不同任务的模式相比，GPT-5.4 更强调能力整合。模型支持复杂推理任务、高阶代码生成、浏览器操作以及长上下文处理，最大上下文窗口达到百万级 Token。

在多项基准测试中，GPT-5.4 在知识工作、编程任务以及网页操作任务中的表现均较前代模型有所提升。例如在 SWE-Bench Pro 编程测试中，其成绩略高于此前主打编程能力的 GPT-5.3 Codex。

OpenAI 表示，GPT-5.4 在推理效率方面也进行了优化。尽管 API 单价较 GPT-5.2 略有上涨，但由于完成任务所需 Token 数量减少，整体使用成本可能不会明显增加。

目前 GPT-5.4 已同步上线 ChatGPT、API 以及 Codex 平台。同时，ChatGPT 中的 GPT-5.4 Thinking 将逐步取代 GPT-5.2 Thinking，而 GPT-5.2 预计将在未来几个月内退役。

GPT-5.4 引入原生“计算机操作”能力，AI 智能体(Agent) 方向再进一步

在 GPT-5.4 中，OpenAI 引入了 原生计算机操作能力（Computer Use）。模型可以通过截图理解软件界面，并执行鼠标点击和键盘输入等操作。

这一能力使模型能够在电脑环境中完成实际任务，例如：

在 WebArena 浏览器任务测试中，GPT-5.4 的成功率为 67.3%，略高于 GPT-5.2。在 OSWorld-Verified 桌面操作测试中，该模型在部分任务中的成功率接近或超过人类平均水平。

业内普遍认为，这类能力是 AI 智能体(Agent) 技术发展的关键方向。相比传统 API 调用方式，通过直接操作用户界面，AI 能够更容易接入现有软件系统。

OpenAI 表示，未来将继续扩展这一能力，使模型能够与更多工具和软件环境协同工作。

GPT-5.4 提升高阶编程能力，整合 Codex 技术

在编程能力方面，GPT-5.4 融合了此前编程模型 GPT-5.3 Codex 的核心能力。

该模型在代码生成、程序调试以及自动测试等任务中的表现进一步提升，并支持更快的代码输出模式。在 SWE-Bench Pro 编程基准测试中，GPT-5.4 的成绩达到 57.7%，略高于 GPT-5.3 Codex 的 56.8%。

OpenAI 同时推出一项名为 Playwright (Interactive) 的实验性功能。该功能允许模型在开发网页或应用时，通过浏览器窗口进行实时调试和自动化测试。

在官方演示中，GPT-5.4 可以根据简单提示生成完整网页应用，并通过自动测试不断修正代码逻辑。

这一能力被视为 AI 在 软件开发自动化领域 持续推进的重要一步。

为了优化 AI 智能体(Agent) 场景中的成本问题，GPT-5.4 引入了一项名为 Tool Search（工具搜索） 的机制。

在此前的模型中，如果 AI 需要调用外部工具，通常需要在提示词中包含所有工具的完整定义。当工具数量较多时，这会显著增加 Token 消耗。

在新的机制下，模型可以先获取一个简要的工具列表，然后在需要时再加载具体工具定义。

根据 OpenAI 的实验结果，在保持相同任务准确率的情况下，该机制能够将智能体(Agent) 任务中的 Token 使用量降低约 47%。

这一技术被认为有助于降低企业在大规模部署 AI 智能体(Agent) 时的运行成本。

OpenAI 表示，GPT-5.4 在处理知识型工作任务方面进行了针对性优化。

在 GDPval 基准测试中，该模型在涉及 44 种职业任务 的评估中取得约 83% 的综合成绩。这些任务涵盖：

在内部投资银行建模测试中，GPT-5.4 的平均得分达到 87.3%，相比 GPT-5.2 的 68.4% 有明显提升。

此外，模型在文档解析和视觉理解方面也有所改进。例如在 MMMU-Pro 视觉推理测试中，其准确率达到 81.2%。

OpenAI 表示，这些能力主要面向 商业办公、数据分析和研究工作 等典型知识型场景。

85 次点击 ∙ 1 人收藏

登录后收藏

1 条回复

chao

2026-03-08 21:42:41

新的地表最强吗