OpenAI 的反击：GPT-5.4 如何用一个模型重新定义 AI 能力边界

2026 年 3 月 5 日，OpenAI 发布了 GPT-5.4。

Sam Altman 发布推文：GPT-5.4 正式发布，现已在 API 和 Codex 中可用

这不是一次常规的版本迭代。过去几个月，Gemini 3.1 Pro 和 Claude Opus 4.6 轮番登顶各项评测榜单，OpenAI 需要一次有力的回应——GPT-5.4 就是答案。它直接跳过了 5.3 的命名，因为这次升级的性质不是渐进式的微调，而是一次「合流」：将推理能力、编程能力和计算机操控能力，塞进同一个模型里。

一个模型，全部搞定。这是 GPT-5.4 最核心的定位。

像人一样操作电脑

GPT-5.4 最引人注目的新能力，是它可以「原生地」操作电脑。

以前的 AI 模型要么只能生成文字，要么需要开发者写大量胶水代码才能让它和软件交互。GPT-5.4 不同——它既能通过 Playwright 等库编写自动化脚本来操控电脑，也能直接「看」屏幕截图，然后发出鼠标点击 and 键盘输入指令。发邮件、排日程、填表格、在不同软件之间切换，这些过去需要人手动点击的工作，GPT-5.4 可以自主完成。

这不是概念演示。在 OSWorld-Verified 测试中——这项测试要求 AI 在真实桌面环境中完成各种操作任务——GPT-5.4 拿下了 75.0% 的成功率。作为参照，人类在同一测试中的成功率是 72.4%，而仅一个月前刚登顶的 Claude Opus 4.6 是 72.7%。换句话说，GPT-5.4 操作电脑的能力，已经略微超过了普通人类测试者的平均水平。

OSWorld-Verified：GPT-5.4 用更少的工具调用达到更高准确率，远超 GPT-5.2

在浏览器操作领域同样如此：WebArena-Verified 上 67.3%，Online-Mind2Web 上 92.8%——后者意味着它在网页上完成指定任务的成功率超过了九成。

这背后的支撑是视觉理解能力的全面提升。GPT-5.4 在 MMMU-Pro 上达到 81.2%，新引入的 original 图像输入级别支持最高 1024 万像素的全保真度感知。看得更清楚，才能点得更准确。

知识工作大升级

如果说操控电脑是「硬功夫」，那处理知识工作就是 GPT-5.4 的「软实力」。

OpenAI 设计了一项名为 GDPval 的评测，涵盖美国 GDP 贡献最大的 9 个行业、44 种职业。测试内容不是回答选择题，而是交付真正的工作产出——做销售 PPT、搭建会计电子表格、排急诊班表、画制造流程图。GPT-5.4 在其中 83.0% 的情况下匹配或超越了行业专业人士的表现，而上一代 GPT-5.2 只有 70.9%。一个版本的差距，拉开了 12 个百分点。

GDPval 知识工作评测：GPT-5.4 以 83% 胜率大幅领先 GPT-5.2 的 70.9%

具体到办公场景：在模拟初级投行分析师的电子表格建模任务中，GPT-5.4 平均得分 87.3%（GPT-5.2 为 68.4% ）；在 PPT 生成对比中，人类评审在 68% 的情况下更偏好 GPT-5.4 的作品，原因是美感更强、视觉更丰富。

GPT-5.4 vs GPT-5.2 PPT 生成对比：左侧 GPT-5.4 的版面布局、图文搭配明显更专业

更重要的是，GPT-5.4 说话更靠谱了。在用户反馈事实错误的提示集上，GPT-5.4 的单条声明出错概率比 GPT-5.2 降低了 33%，完整回复包含任何错误的概率降低了 18%。OpenAI 称之为「迄今最讲求事实的模型」。

推理与编程合体

过去，用户面临一个尴尬的选择：想要强推理就用 GPT-5.2，想要强编程就用 GPT-5.3-Codex。GPT-5.4 终结了这种割裂。

它完整继承了 GPT-5.3-Codex 的编程基因。在 SWE-Bench Pro（一项考察真实软件工程任务的评测）上，GPT-5.4 以 57.7% 的准确率媲美甚至微超 GPT-5.3-Codex 的 56.8%。但它的优势不止于分数：GPT-5.4 是 OpenAI 迄今 Token 效率最高的推理模型——解决同样的问题，消耗的 Token 大幅减少，意味着更低的成本和更快的速度。在 Codex 的 /fast 模式下，Token 生成速度最高可提升 1.5 倍——同样的智力，快了 50%。

SWE-Bench Pro：GPT-5.4 在更低延迟下达到更高准确率，编程效率显著优于前代

在内部测试中，OpenAI 还发现 GPT-5.4 在复杂前端任务上表现尤为突出。他们甚至发布了一个实验性的 Playwright Interactive 技能，让模型一边构建 Web 应用一边在浏览器中调试——仅凭一段提示词，GPT-5.4 就生成了一个完整的主题公园模拟经营游戏，包含路网建设、设施建造、游客 AI 和经济系统。

工具生态的飞跃

对于开发者来说，GPT-5.4 在工具使用上的进化可能更具实际价值。

以往，给模型提供大量工具时，所有工具的定义都要塞进提示词里，动辄数万 Token，既慢又贵。GPT-5.4 引入了「工具搜索」（Tool Search）：模型只接收一份轻量级的工具目录，需要用某个工具时再即时查找并加载其完整定义。这就像给 AI 一本工具说明书的目录页，需要哪页翻哪页，而不是把整本书都摆在桌上。

效果立竿见影：在 Scale 的 MCP Atlas 基准测试中（250 个任务，开启全部 36 个 MCP 服务器），工具搜索在保持相同准确率的前提下，将总 Token 使用量减少了 47%。

Tool Search Token 节省：开启工具搜索后，总 Token 消耗从 123,139 降至 65,320，减少近一半

网络搜索能力同样迎来大幅提升。在 BrowseComp 测试中，GPT-5.4 达到 82.7%，比 GPT-5.2 的 65.8% 跃升了 17 个百分点；Pro 版更是以 89.3% 刷新 SOTA。这意味着 GPT-5.4 更擅长「大海捞针」式的深度搜索——从多个来源持久搜索、筛选、综合出一份条理清晰的答案。

此外，GPT-5.4 实验性地支持了 100 万 Token 的上下文窗口，为需要处理超长文档或长期任务的 agent 打开了新的可能。

定价与可用性

GPT-5.4 API 定价一览：含标准版与 Pro 版对比

GPT-5.4 的 API 定价为输入 $2.50/百万 Token、输出 $15/百万 Token，相比 GPT-5.2（$1.75/$14）有所上调。Pro 版更贵，输入 $30、输出 $180/百万 Token。但考虑到 Token 效率的大幅提升——完成相同任务所需的 Token 明显减少——实际使用成本未必上升，甚至可能降低。Batch 和 Flex 定价享半价，Priority Processing 则为双倍价格。

在 ChatGPT 端，GPT-5.4 Thinking 即日起面向 Plus、Team 和 Pro 用户上线，Pro 用户还可使用 GPT-5.4 Pro。GPT-5.2 将保留三个月至 2026 年 6 月 5 日退役。

写在最后

GPT-5.4 的发布，标志着 AI 模型竞争进入了一个新阶段。

过去一年，我们习惯了「推理模型」「编程模型」「视觉模型」各自为政的格局。GPT-5.4 打破了这种分立——它在推理、编程、视觉理解、计算机操控、工具使用、网络搜索和知识工作上，每一项都拉到了顶尖水平。不是某个维度的突破，而是全面的能力整合。

对开发者而言，这意味着工作流的简化：不再需要为不同任务选择不同模型。对普通用户而言，这意味着 AI 助手离「真正能帮你干活」又近了一步。

GPT-5.4 全维度评测总表：涵盖计算机操控、知识工作、编程、推理、工具使用等各项指标与竞品对比

从「选哪个模型」到「用一个模型」——AI 应用的门槛，正在降低。

摘要：OpenAI 发布 GPT-5.4，首次将推理、编程和原生计算机操控能力合为一体。OSWorld 超越人类（75% vs 72.4%），GDPval 知识工作 83%，幻觉率降低 33%，工具搜索 Token 减少 47%。API 定价 $2.50/$15/M tokens 。

发布于: 2026年3月5日 · 修改于: 2026年3月19日

模型