OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  社区  ›  OpenAI

OpenAI 推出 GPT-5.4 Thinking 与 GPT-5.4 Pro,两款新模型同步登陆 ChatGPT 与 API

 
  insight ·  2026-03-06 11:32:08 · 6 次点击  · 0 条评论  

OpenAI 近日宣布推出两款新的 GPT-5.4 系列模型 —— GPT-5.4 ThinkingGPT-5.4 Pro。用户现在已经可以在 ChatGPT 中直接使用这两款模型,同时 GPT-5.4 也正式开放给 API 开发者和 Codex 环境

这次更新延续了 OpenAI 近年来在模型体系上的一个明显趋势:
将“推理能力”与“通用能力”进行分层设计,让不同场景可以选择更合适的模型。

主流模型能力对比(部分基准测试)

Benchmark / 能力 GPT-5.4 Thinking GPT-5.4 Pro GPT-5.3 Codex GPT-5.2 Thinking Claude Opus 4.6 Gemini 3.1 Pro
OSWorld-Verified(计算机操作) 75.0% 74.0% 47.3% 72.7%
WebArena-Verified(网页操作) 67.3% 65.4% 66.4%
GDPval(知识工作任务) 83.0% 82.0% 70.9% 70.9% 78.0%
BrowseComp(Agent 浏览能力) 82.7% 89.3% 77.3% 65.8% 84.0% 85.9%
SWE-Bench Pro(软件工程) 57.7% 56.8% 55.6% 54.2%
GPQA Diamond(专家级科学推理) 92.8% 94.4% 92.6% 92.4% 91.3% 94.3%
FrontierMath Tier1–3(高级数学) 47.6% 50.0% 40.7% 40.7% 36.9%
FrontierMath Tier4(顶级数学难题) 27.1% 38.0% 18.8% 22.9% 16.7%
Toolathlon(工具调用能力) 54.6% 51.9% 45.7% 44.8%

注:部分模型未公开对应测试成绩,因此表格中以 “—” 表示。

表格中的百分比是什么意思?

表格里的 百分比代表模型在某个基准测试(Benchmark)中的正确率或任务成功率,用于衡量模型在不同能力维度上的表现。

一般来说:

百分比越高,说明模型在该项能力测试中的表现越好。

不同 Benchmark 关注的能力方向不同,含义如下:

Benchmark 百分比含义 测试能力
OSWorld-Verified 模型完成真实电脑任务的成功率 电脑操作 / 智能体(Agent)能力
WebArena-Verified 模型完成网页任务的成功率 浏览器操作 / Web 智能体(Agent)
GDPval 知识工作任务完成正确率 通用知识工作能力
BrowseComp AI浏览网页并回答复杂问题的成功率 搜索 + 推理能力
SWE-Bench Pro 修复真实 GitHub Bug 的成功率 编程能力
GPQA Diamond 研究生级科学问题答对比例 科学推理
FrontierMath 高难数学题正确率 数学推理
Toolathlon 正确调用工具完成任务的比例 工具使用 / 智能体(Agent)能力

示例说明

例如:

SWE-Bench Pro = 57.7%

表示在测试集中所有真实软件 Bug 修复任务中:

  • 如果共有 100 个 Bug 修复任务
  • 模型成功修复了 57.7 个

再比如:

OSWorld = 75%

表示在真实电脑环境的任务测试中:

  • 共 100 个任务
  • 模型成功完成 75 个

这些百分比可以理解为:

模型在某类任务中的成功率或正确率。

数值越高,说明模型在该类能力上的表现越强。


注:表格中的百分比代表模型在对应基准测试中的任务成功率或正确率。


两个版本:Thinking 与 Pro

从定位上看,GPT-5.4 系列被拆分为两个主要版本:

GPT-5.4 Thinking

Thinking 版本侧重复杂推理任务。

它主要面向需要深度分析和多步推理的场景,例如:

  • 复杂问题拆解
  • 数学与逻辑推理
  • 长链条决策任务
  • 多步骤规划

与传统对话模型相比,Thinking 类模型通常会在内部进行更多的“思考步骤”,以提升推理稳定性和正确率。

这种设计理念与近年来流行的 Reasoning Models(推理模型) 类似,强调通过更长的推理链条来获得更准确的答案。


GPT-5.4 Pro

Pro 版本则定位为高性能通用模型。

它更加侧重以下能力:

  • 高质量文本生成
  • 编程与代码补全
  • 内容创作
  • 日常问答与助手任务

相比 Thinking 模型,Pro 版本通常在 响应速度、成本效率和多场景适配方面更加均衡,因此更适合作为默认通用模型使用。


同步开放 API 与 Codex

除了 ChatGPT 用户之外,开发者也可以在 API 中直接调用 GPT-5.4

这意味着 GPT-5.4 系列将很快出现在大量 AI 应用中,例如:

  • AI 开发工具
  • 自动化 Agent 系统
  • 编程助手
  • 企业知识助手
  • AI 工作流平台

此外,GPT-5.4 也被整合进 Codex 环境,进一步强化其在 代码理解、生成与修复方面的能力。


OpenAI 模型体系正在分层

从 GPT-4 时代开始,OpenAI 的模型体系逐渐从 单一旗舰模型演变为 多类型模型组合

当前的大致结构已经开始成型:

  • 通用模型(General Models)
    用于日常对话、写作和编程任务。

  • 推理模型(Reasoning Models)
    用于复杂问题分析和多步推理。

  • 轻量模型(Efficiency Models)
    用于高并发和低成本场景。

GPT-5.4 Thinking 与 GPT-5.4 Pro 的推出,正是这种分层策略的进一步体现。

这种设计能够让开发者在 成本、速度与推理能力之间做出更灵活的选择,而不再依赖单一模型解决所有问题。


AI 推理能力仍是竞争核心

近两年,大模型竞争的焦点已经从“参数规模”逐渐转向 推理能力与稳定性

各家厂商都在强化自己的推理模型:

  • OpenAI 推出 Thinking 系列
  • Anthropic 强调 Claude 的长推理能力
  • Google 持续强化 Gemini 的推理与工具调用

在这样的趋势下,推理模型很可能会成为 AI Agent 与自动化系统的核心能力之一

GPT-5.4 Thinking 的推出,也进一步说明 OpenAI 正在继续强化这一方向。

6 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor