OpenAI 推出 GPT-5.4 Thinking 与 GPT-5.4 Pro，两款新模型同步登陆 ChatGPT 与 API

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

OpenAI 近日宣布推出两款新的 GPT-5.4 系列模型 —— GPT-5.4 Thinking 和 GPT-5.4 Pro。用户现在已经可以在 ChatGPT 中直接使用这两款模型，同时 GPT-5.4 也正式开放给 API 开发者和 Codex 环境。

这次更新延续了 OpenAI 近年来在模型体系上的一个明显趋势：
将“推理能力”与“通用能力”进行分层设计，让不同场景可以选择更合适的模型。

主流模型能力对比（部分基准测试）

Benchmark / 能力	GPT-5.4 Thinking	GPT-5.4 Pro	GPT-5.3 Codex	GPT-5.2 Thinking	Claude Opus 4.6	Gemini 3.1 Pro
OSWorld-Verified（计算机操作）	75.0%	—	74.0%	47.3%	72.7%	—
WebArena-Verified（网页操作）	67.3%	—	—	65.4%	66.4%	—
GDPval（知识工作任务）	83.0%	82.0%	70.9%	70.9%	78.0%	—
BrowseComp（Agent 浏览能力）	82.7%	89.3%	77.3%	65.8%	84.0%	85.9%
SWE-Bench Pro（软件工程）	57.7%	—	56.8%	55.6%	—	54.2%
GPQA Diamond（专家级科学推理）	92.8%	94.4%	92.6%	92.4%	91.3%	94.3%
FrontierMath Tier1–3（高级数学）	47.6%	50.0%	—	40.7%	40.7%	36.9%
FrontierMath Tier4（顶级数学难题）	27.1%	38.0%	—	18.8%	22.9%	16.7%
Toolathlon（工具调用能力）	54.6%	—	51.9%	45.7%	44.8%	—

注：部分模型未公开对应测试成绩，因此表格中以 “—” 表示。

表格中的百分比是什么意思？

表格里的 百分比代表模型在某个基准测试（Benchmark）中的正确率或任务成功率，用于衡量模型在不同能力维度上的表现。

一般来说：

百分比越高，说明模型在该项能力测试中的表现越好。

不同 Benchmark 关注的能力方向不同，含义如下：

Benchmark	百分比含义	测试能力
OSWorld-Verified	模型完成真实电脑任务的成功率	电脑操作 / 智能体(Agent)能力
WebArena-Verified	模型完成网页任务的成功率	浏览器操作 / Web 智能体(Agent)
GDPval	知识工作任务完成正确率	通用知识工作能力
BrowseComp	AI浏览网页并回答复杂问题的成功率	搜索 + 推理能力
SWE-Bench Pro	修复真实 GitHub Bug 的成功率	编程能力
GPQA Diamond	研究生级科学问题答对比例	科学推理
FrontierMath	高难数学题正确率	数学推理
Toolathlon	正确调用工具完成任务的比例	工具使用 / 智能体(Agent)能力

示例说明

例如：

SWE-Bench Pro = 57.7%

表示在测试集中所有真实软件 Bug 修复任务中：

如果共有 100 个 Bug 修复任务
模型成功修复了 57.7 个

再比如：

OSWorld = 75%

表示在真实电脑环境的任务测试中：

共 100 个任务
模型成功完成 75 个

这些百分比可以理解为：

模型在某类任务中的成功率或正确率。

数值越高，说明模型在该类能力上的表现越强。

注：表格中的百分比代表模型在对应基准测试中的任务成功率或正确率。

两个版本：Thinking 与 Pro

从定位上看，GPT-5.4 系列被拆分为两个主要版本：

GPT-5.4 Thinking

Thinking 版本侧重复杂推理任务。

它主要面向需要深度分析和多步推理的场景，例如：

复杂问题拆解
数学与逻辑推理
长链条决策任务
多步骤规划

与传统对话模型相比，Thinking 类模型通常会在内部进行更多的“思考步骤”，以提升推理稳定性和正确率。

这种设计理念与近年来流行的 Reasoning Models（推理模型） 类似，强调通过更长的推理链条来获得更准确的答案。

GPT-5.4 Pro

Pro 版本则定位为高性能通用模型。

它更加侧重以下能力：

高质量文本生成
编程与代码补全
内容创作
日常问答与助手任务

相比 Thinking 模型，Pro 版本通常在 响应速度、成本效率和多场景适配方面更加均衡，因此更适合作为默认通用模型使用。

同步开放 API 与 Codex

除了 ChatGPT 用户之外，开发者也可以在 API 中直接调用 GPT-5.4。

这意味着 GPT-5.4 系列将很快出现在大量 AI 应用中，例如：

AI 开发工具
自动化 Agent 系统
编程助手
企业知识助手
AI 工作流平台

此外，GPT-5.4 也被整合进 Codex 环境，进一步强化其在 代码理解、生成与修复方面的能力。

OpenAI 模型体系正在分层

从 GPT-4 时代开始，OpenAI 的模型体系逐渐从 单一旗舰模型演变为 多类型模型组合。

当前的大致结构已经开始成型：

通用模型（General Models）
用于日常对话、写作和编程任务。
推理模型（Reasoning Models）
用于复杂问题分析和多步推理。
轻量模型（Efficiency Models）
用于高并发和低成本场景。

GPT-5.4 Thinking 与 GPT-5.4 Pro 的推出，正是这种分层策略的进一步体现。

这种设计能够让开发者在 成本、速度与推理能力之间做出更灵活的选择，而不再依赖单一模型解决所有问题。

AI 推理能力仍是竞争核心

近两年，大模型竞争的焦点已经从“参数规模”逐渐转向 推理能力与稳定性。

各家厂商都在强化自己的推理模型：

OpenAI 推出 Thinking 系列
Anthropic 强调 Claude 的长推理能力
Google 持续强化 Gemini 的推理与工具调用

在这样的趋势下，推理模型很可能会成为 AI Agent 与自动化系统的核心能力之一。

GPT-5.4 Thinking 的推出，也进一步说明 OpenAI 正在继续强化这一方向。

92 次点击 ∙ 0 人收藏

登录后收藏

0 条回复