OpenAI 近日宣布推出两款新的 GPT-5.4 系列模型 —— GPT-5.4 Thinking 和 GPT-5.4 Pro。用户现在已经可以在 ChatGPT 中直接使用这两款模型,同时 GPT-5.4 也正式开放给 API 开发者和 Codex 环境。
这次更新延续了 OpenAI 近年来在模型体系上的一个明显趋势:
将“推理能力”与“通用能力”进行分层设计,让不同场景可以选择更合适的模型。
| Benchmark / 能力 | GPT-5.4 Thinking | GPT-5.4 Pro | GPT-5.3 Codex | GPT-5.2 Thinking | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| OSWorld-Verified(计算机操作) | 75.0% | — | 74.0% | 47.3% | 72.7% | — |
| WebArena-Verified(网页操作) | 67.3% | — | — | 65.4% | 66.4% | — |
| GDPval(知识工作任务) | 83.0% | 82.0% | 70.9% | 70.9% | 78.0% | — |
| BrowseComp(Agent 浏览能力) | 82.7% | 89.3% | 77.3% | 65.8% | 84.0% | 85.9% |
| SWE-Bench Pro(软件工程) | 57.7% | — | 56.8% | 55.6% | — | 54.2% |
| GPQA Diamond(专家级科学推理) | 92.8% | 94.4% | 92.6% | 92.4% | 91.3% | 94.3% |
| FrontierMath Tier1–3(高级数学) | 47.6% | 50.0% | — | 40.7% | 40.7% | 36.9% |
| FrontierMath Tier4(顶级数学难题) | 27.1% | 38.0% | — | 18.8% | 22.9% | 16.7% |
| Toolathlon(工具调用能力) | 54.6% | — | 51.9% | 45.7% | 44.8% | — |
注:部分模型未公开对应测试成绩,因此表格中以 “—” 表示。
表格里的 百分比代表模型在某个基准测试(Benchmark)中的正确率或任务成功率,用于衡量模型在不同能力维度上的表现。
一般来说:
百分比越高,说明模型在该项能力测试中的表现越好。
不同 Benchmark 关注的能力方向不同,含义如下:
| Benchmark | 百分比含义 | 测试能力 |
|---|---|---|
| OSWorld-Verified | 模型完成真实电脑任务的成功率 | 电脑操作 / 智能体(Agent)能力 |
| WebArena-Verified | 模型完成网页任务的成功率 | 浏览器操作 / Web 智能体(Agent) |
| GDPval | 知识工作任务完成正确率 | 通用知识工作能力 |
| BrowseComp | AI浏览网页并回答复杂问题的成功率 | 搜索 + 推理能力 |
| SWE-Bench Pro | 修复真实 GitHub Bug 的成功率 | 编程能力 |
| GPQA Diamond | 研究生级科学问题答对比例 | 科学推理 |
| FrontierMath | 高难数学题正确率 | 数学推理 |
| Toolathlon | 正确调用工具完成任务的比例 | 工具使用 / 智能体(Agent)能力 |
例如:
SWE-Bench Pro = 57.7%
表示在测试集中所有真实软件 Bug 修复任务中:
再比如:
OSWorld = 75%
表示在真实电脑环境的任务测试中:
这些百分比可以理解为:
模型在某类任务中的成功率或正确率。
数值越高,说明模型在该类能力上的表现越强。
注:表格中的百分比代表模型在对应基准测试中的任务成功率或正确率。
从定位上看,GPT-5.4 系列被拆分为两个主要版本:
Thinking 版本侧重复杂推理任务。
它主要面向需要深度分析和多步推理的场景,例如:
与传统对话模型相比,Thinking 类模型通常会在内部进行更多的“思考步骤”,以提升推理稳定性和正确率。
这种设计理念与近年来流行的 Reasoning Models(推理模型) 类似,强调通过更长的推理链条来获得更准确的答案。
Pro 版本则定位为高性能通用模型。
它更加侧重以下能力:
相比 Thinking 模型,Pro 版本通常在 响应速度、成本效率和多场景适配方面更加均衡,因此更适合作为默认通用模型使用。
除了 ChatGPT 用户之外,开发者也可以在 API 中直接调用 GPT-5.4。
这意味着 GPT-5.4 系列将很快出现在大量 AI 应用中,例如:
此外,GPT-5.4 也被整合进 Codex 环境,进一步强化其在 代码理解、生成与修复方面的能力。
从 GPT-4 时代开始,OpenAI 的模型体系逐渐从 单一旗舰模型演变为 多类型模型组合。
当前的大致结构已经开始成型:
通用模型(General Models)
用于日常对话、写作和编程任务。
推理模型(Reasoning Models)
用于复杂问题分析和多步推理。
轻量模型(Efficiency Models)
用于高并发和低成本场景。
GPT-5.4 Thinking 与 GPT-5.4 Pro 的推出,正是这种分层策略的进一步体现。
这种设计能够让开发者在 成本、速度与推理能力之间做出更灵活的选择,而不再依赖单一模型解决所有问题。
近两年,大模型竞争的焦点已经从“参数规模”逐渐转向 推理能力与稳定性。
各家厂商都在强化自己的推理模型:
在这样的趋势下,推理模型很可能会成为 AI Agent 与自动化系统的核心能力之一。
GPT-5.4 Thinking 的推出,也进一步说明 OpenAI 正在继续强化这一方向。