OpenAI 近日发布新一代通用模型 GPT-5.4。该模型首次在单一系统中整合推理能力、编程能力、计算机操作以及深度网页搜索等功能,进一步推动 AI 从工具型助手向自动化 智能体(Agent) 系统发展。
与此前不同版本分别承担不同任务的模式相比,GPT-5.4 更强调能力整合。模型支持复杂推理任务、高阶代码生成、浏览器操作以及长上下文处理,最大上下文窗口达到百万级 Token。
在多项基准测试中,GPT-5.4 在知识工作、编程任务以及网页操作任务中的表现均较前代模型有所提升。例如在 SWE-Bench Pro 编程测试中,其成绩略高于此前主打编程能力的 GPT-5.3 Codex。
OpenAI 表示,GPT-5.4 在推理效率方面也进行了优化。尽管 API 单价较 GPT-5.2 略有上涨,但由于完成任务所需 Token 数量减少,整体使用成本可能不会明显增加。
目前 GPT-5.4 已同步上线 ChatGPT、API 以及 Codex 平台。同时,ChatGPT 中的 GPT-5.4 Thinking 将逐步取代 GPT-5.2 Thinking,而 GPT-5.2 预计将在未来几个月内退役。
在 GPT-5.4 中,OpenAI 引入了 原生计算机操作能力(Computer Use)。模型可以通过截图理解软件界面,并执行鼠标点击和键盘输入等操作。
这一能力使模型能够在电脑环境中完成实际任务,例如:
在 WebArena 浏览器任务测试中,GPT-5.4 的成功率为 67.3%,略高于 GPT-5.2。在 OSWorld-Verified 桌面操作测试中,该模型在部分任务中的成功率接近或超过人类平均水平。
业内普遍认为,这类能力是 AI 智能体(Agent) 技术发展的关键方向。相比传统 API 调用方式,通过直接操作用户界面,AI 能够更容易接入现有软件系统。
OpenAI 表示,未来将继续扩展这一能力,使模型能够与更多工具和软件环境协同工作。
在编程能力方面,GPT-5.4 融合了此前编程模型 GPT-5.3 Codex 的核心能力。
该模型在代码生成、程序调试以及自动测试等任务中的表现进一步提升,并支持更快的代码输出模式。在 SWE-Bench Pro 编程基准测试中,GPT-5.4 的成绩达到 57.7%,略高于 GPT-5.3 Codex 的 56.8%。
OpenAI 同时推出一项名为 Playwright (Interactive) 的实验性功能。该功能允许模型在开发网页或应用时,通过浏览器窗口进行实时调试和自动化测试。
在官方演示中,GPT-5.4 可以根据简单提示生成完整网页应用,并通过自动测试不断修正代码逻辑。
这一能力被视为 AI 在 软件开发自动化领域 持续推进的重要一步。
为了优化 AI 智能体(Agent) 场景中的成本问题,GPT-5.4 引入了一项名为 Tool Search(工具搜索) 的机制。
在此前的模型中,如果 AI 需要调用外部工具,通常需要在提示词中包含所有工具的完整定义。当工具数量较多时,这会显著增加 Token 消耗。
在新的机制下,模型可以先获取一个简要的工具列表,然后在需要时再加载具体工具定义。
根据 OpenAI 的实验结果,在保持相同任务准确率的情况下,该机制能够将 智能体(Agent) 任务中的 Token 使用量降低约 47%。
这一技术被认为有助于降低企业在大规模部署 AI 智能体(Agent) 时的运行成本。
OpenAI 表示,GPT-5.4 在处理知识型工作任务方面进行了针对性优化。
在 GDPval 基准测试中,该模型在涉及 44 种职业任务 的评估中取得约 83% 的综合成绩。这些任务涵盖:
在内部投资银行建模测试中,GPT-5.4 的平均得分达到 87.3%,相比 GPT-5.2 的 68.4% 有明显提升。
此外,模型在文档解析和视觉理解方面也有所改进。例如在 MMMU-Pro 视觉推理测试中,其准确率达到 81.2%。
OpenAI 表示,这些能力主要面向 商业办公、数据分析和研究工作 等典型知识型场景。