OpenAI推出全新GPT-5.3-Codex模型,速度更快、理解更准、正式迈向通用电脑代理

随着OpenAI推出Codex桌面版App后,很快的也宣布新一代GPT-5.3-Codex模型,就版本来说,看起来只是小更新,但实际上改变还蛮大的,GPT-5.3-Codex是把Codex原本从「只是写与检查代码」的代理,变成能「在计算机上完成整段流程」的代理。

这次更新重点:GPT 5.3 Codex 的新改变与特色

OpenAI 表示「GPT-5.3-Codex 同时推进了 GPT-5.2-Codex 的前沿写程序能力,以及 GPT-5.2 的推理与专业知识能力,并整合到同一个模型中,速度还提升 25%。 在 SWE-Bench Pro、Terminal-Bench、OSWorld 与 GDPval 这四项评测中创下业界新高。」

简单来说,GPT-5.3-Codex 的重点不是在写代码更强,而是更能把一个任务拆成步骤、用工具、跑流程、最后把结果做出来,过程中还可以像引导同事一样,随时介入调整方向,不需要等它把整份成果都生成出来才发现走偏。

GPT-5.3-Codex 拥有更强的 agentic 能力,能在工作时持续互动、保持上下文不掉线。

官方公布的数据里,GPT-5.3-Codex 相较 GPT-5.2-Codex 的提升,最明显的是在「终端作与桌面环境完成任务的电脑使用」的能力。

  • Terminal-Bench 2.0,GPT-5.3-Codex 是 77.3%,GPT-5.2-Codex 是 64.0%。
  • OSWorld-Verified(桌面环境完成任务的电脑使用能力),GPT-5.3-Codex 是 64.7%,GPT-5.2-Codex 是 38.2%。
  • SWE-Bench Pro(更接近真实工程情境)则是56.8%对56.4%,差距不大。
OpenAI推出全新GPT-5.3-Codex模型,速度更快、理解更准、正式迈向通用电脑代理

OpenAI 更强调,GPT-5.3-Codex 在完成这些任务时所使用的 token 数量比过往任何模型都更少,让用户能打造更多成果:

OpenAI推出全新GPT-5.3-Codex模型,速度更快、理解更准、正式迈向通用电脑代理

具体来说,有三个主要变化在日常使用上会比较明显感受到差异。

第一是「长任务」的可用性,这次速度提升多达 25%,代表说更有机会将需要研究、需要使用工具、需要多步执行的任务跑到底,而不是卡在等待或反复确认。

第二个是处理时「更像思考整个项目」而不是「思考单一答案」。 OpenAI 举例说,要求它制作两款游戏:

  • Codex App 发布时的赛车游戏第二版
  • 一款潜水探索游戏

仅使用「修 bug」或「改进游戏」等通用后续指令的情况下,GPT-5.3-Codex 就能在数百万 token 的过程中自主迭代与改进这些作品。

第三个则是「不只写程式码」,GPT-5.3-Codex 被设计来支持整个软件生命周期中的所有工作,包括除错、部署、监控、撰写 PRD、改文案、做用户研究、补测试、整理指标等; 甚至也提到可做投视频、试算表这类知识工作产物。

除此之外,GPT-5.3-Codex 也会更频繁更新目前进度、关键决策,你也能即时提问、改需求、调整做法,而不是等它跑完整段流程才验收。

更有趣的地方在,同一天Claude其实也发布Claude Opus 4.6新模型,Terminal-Bench 2.0成绩为65.4%,当时比所有竞争对手都高:

OpenAI推出全新GPT-5.3-Codex模型,速度更快、理解更准、正式迈向通用电脑代理

但没想到不到一个小时,OpenAI就发表的GPT-5.3-Codex且立刻以77.3%成绩超越,许多网友就笑称,Claude被狙击了。

付费 ChatGPT 用户现在已经能使用 GPT-5.3-Codex,可通过以下平台使用:

  • App
  • CLI
  • IDE 扩充
  • Web
(0)
麦克哥麦克哥

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注