OpenAI GPT-5.4 正式发布

OpenAI 的反击:GPT-5.4 如何用一个模型重新定义 AI 能力边界

模型

2026 年 3 月 5 日,OpenAI 发布了 GPT-5.4。

Sam Altman 发布推文:GPT-5.4 正式发布,现已在 API 和 Codex 中可用

这不是一次常规的版本迭代。过去几个月,Gemini 3.1 Pro 和 Claude Opus 4.6 轮番登顶各项评测榜单,OpenAI 需要一次有力的回应——GPT-5.4 就是答案。它直接跳过了 5.3 的命名,因为这次升级的性质不是渐进式的微调,而是一次「合流」:将推理能力、编程能力和计算机操控能力,塞进同一个模型里。

一个模型,全部搞定。这是 GPT-5.4 最核心的定位。

像人一样操作电脑

GPT-5.4 最引人注目的新能力,是它可以「原生地」操作电脑。

以前的 AI 模型要么只能生成文字,要么需要开发者写大量胶水代码才能让它和软件交互。GPT-5.4 不同——它既 能通过 Playwright 等库编写自动化脚本来操控电脑,也能直接「看」屏幕截图,然后发出鼠标点击 and 键盘输入 指令。发邮件、排日程、填表格、在不同软件之间切换,这些过去需要人手动点击的工作,GPT-5.4 可以自主完 成。

这不是概念演示。在 OSWorld-Verified 测试中——这项测试要求 AI 在真实桌面环境中完成各种操作任务——GPT-5.4 拿下了 75.0% 的成功率。作为参照,人类在同一测试中的成功率是 72.4%,而仅一个月前刚登顶的 Claude Opus 4.6 是 72.7%。换句话说,GPT-5.4 操作电脑的能力,已经略微超过了普通人类测试者的平均水平。

OSWorld-Verified:GPT-5.4 用更少的工具调用达到更高准确率,远超 GPT-5.2

在浏览器操作领域同样如此:WebArena-Verified 上 67.3%,Online-Mind2Web 上 92.8%——后者意味着它在网页 上完成指定任务的成功率超过了九成。

这背后的支撑是视觉理解能力的全面提升。GPT-5.4 在 MMMU-Pro 上达到 81.2%,新引入的 original 图像输 入级别支持最高 1024 万像素的全保真度感知。看得更清楚,才能点得更准确。

知识工作大升级

如果说操控电脑是「硬功夫」,那处理知识工作就是 GPT-5.4 的「软实力」。

OpenAI 设计了一项名为 GDPval 的评测,涵盖美国 GDP 贡献最大的 9 个行业、44 种职业。测试内容不是回答 选择题,而是交付真正的工作产出——做销售 PPT、搭建会计电子表格、排急诊班表、画制造流程图。GPT-5.4 在 其中 83.0% 的情况下匹配或超越了行业专业人士的表现,而上一代 GPT-5.2 只有 70.9%。一个版本的差距,拉 开了 12 个百分点。

GDPval 知识工作评测:GPT-5.4 以 83% 胜率大幅领先 GPT-5.2 的 70.9%

具体到办公场景:在模拟初级投行分析师的电子表格建模任务中,GPT-5.4 平均得分 87.3%(GPT-5.2 为 68.4% );在 PPT 生成对比中,人类评审在 68% 的情况下更偏好 GPT-5.4 的作品,原因是美感更强、视觉更丰富。

GPT-5.4 vs GPT-5.2 PPT 生成对比:左侧 GPT-5.4 的版面布局、图文搭配明显更专业

更重要的是,GPT-5.4 说话更靠谱了。在用户反馈事实错误的提示集上,GPT-5.4 的单条声明出错概率比 GPT-5.2 降低了 33%,完整回复包含任何错误的概率降低了 18%。OpenAI 称之为「迄今最讲求事实的模型」。

推理与编程合体

过去,用户面临一个尴尬的选择:想要强推理就用 GPT-5.2,想要强编程就用 GPT-5.3-Codex。GPT-5.4 终结了 这种割裂。

它完整继承了 GPT-5.3-Codex 的编程基因。在 SWE-Bench Pro(一项考察真实软件工程任务的评测)上,GPT-5.4 以 57.7% 的准确率媲美甚至微超 GPT-5.3-Codex 的 56.8%。但它的优势不止于分数:GPT-5.4 是 OpenAI 迄 今 Token 效率最高的推理模型——解决同样的问题,消耗的 Token 大幅减少,意味着更低的成本和更快的速度。 在 Codex 的 /fast 模式下,Token 生成速度最高可提升 1.5 倍——同样的智力,快了 50%。

SWE-Bench Pro:GPT-5.4 在更低延迟下达到更高准确率,编程效率显著优于前代

在内部测试中,OpenAI 还发现 GPT-5.4 在复杂前端任务上表现尤为突出。他们甚至发布了一个实验性的 Playwright Interactive 技能,让模型一边构建 Web 应用一边在浏览器中调试——仅凭一段提示词,GPT-5.4 就生成了 一个完整的主题公园模拟经营游戏,包含路网建设、设施建造、游客 AI 和经济系统。

工具生态的飞跃

对于开发者来说,GPT-5.4 在工具使用上的进化可能更具实际价值。

以往,给模型提供大量工具时,所有工具的定义都要塞进提示词里,动辄数万 Token,既慢又贵。GPT-5.4 引入 了「工具搜索」(Tool Search):模型只接收一份轻量级的工具目录,需要用某个工具时再即时查找并加载其完整定义。这就像给 AI 一本工具说明书的目录页,需要哪页翻哪页,而不是把整本书都摆在桌上。

效果立竿见影:在 Scale 的 MCP Atlas 基准测试中(250 个任务,开启全部 36 个 MCP 服务器),工具搜索在保持相同准确率的前提下,将总 Token 使用量减少了 47%。

Tool Search Token 节省:开启工具搜索后,总 Token 消耗从 123,139 降至 65,320,减少近一半

网络搜索能力同样迎来大幅提升。在 BrowseComp 测试中,GPT-5.4 达到 82.7%,比 GPT-5.2 的 65.8% 跃升了 17 个百分点;Pro 版更是以 89.3% 刷新 SOTA。这意味着 GPT-5.4 更擅长「大海捞针」式的深度搜索——从多个 来源持久搜索、筛选、综合出一份条理清晰的答案。

此外,GPT-5.4 实验性地支持了 100 万 Token 的上下文窗口,为需要处理超长文档或长期任务的 agent 打开了新的可能。

定价与可用性

GPT-5.4 API 定价一览:含标准版与 Pro 版对比

GPT-5.4 的 API 定价为输入 $2.50/百万 Token、输出 $15/百万 Token,相比 GPT-5.2($1.75/$14)有所上调 。Pro 版更贵,输入 $30、输出 $180/百万 Token。但考虑到 Token 效率的大幅提升——完成相同任务所需的 Token 明显减少——实际使用成本未必上升,甚至可能降低。Batch 和 Flex 定价享半价,Priority Processing 则为双倍价格。

在 ChatGPT 端,GPT-5.4 Thinking 即日起面向 Plus、Team 和 Pro 用户上线,Pro 用户还可使用 GPT-5.4 Pro。GPT-5.2 将保留三个月至 2026 年 6 月 5 日退役。

写在最后

GPT-5.4 的发布,标志着 AI 模型竞争进入了一个新阶段。

过去一年,我们习惯了「推理模型」「编程模型」「视觉模型」各自为政的格局。GPT-5.4 打破了这种分立——它 在推理、编程、视觉理解、计算机操控、工具使用、网络搜索和知识工作上,每一项都拉到了顶尖水平。不是某 个维度的突破,而是全面的能力整合。

对开发者而言,这意味着工作流的简化:不再需要为不同任务选择不同模型。对普通用户而言,这意味着 AI 助 手离「真正能帮你干活」又近了一步。

GPT-5.4 全维度评测总表:涵盖计算机操控、知识工作、编程、推理、工具使用等各项指标与竞品对比

从「选哪个模型」到「用一个模型」——AI 应用的门槛,正在降低。


摘要:OpenAI 发布 GPT-5.4,首次将推理、编程和原生计算机操控能力合为一体。OSWorld 超越人类(75% vs 72.4%),GDPval 知识工作 83%,幻觉率降低 33%,工具搜索 Token 减少 47%。API 定价 $2.50/$15/M tokens 。

发布于: 2026年3月5日 · 修改于: 2026年3月19日