
文 | 锦缎
OpenAI明里暗地预热了很久的GPT-5.4,终于在上周五厚爱亮相了。它的才略种植自不必说,但有真义的是,此次发布的新版块,和当下爆火的诓骗“龙虾”(OpenClaw),有着剪束缚的估计。而这一切的中枢,就藏在OpenAI官方先容中反复强调的一个要津才略上:“Computer-Use”(谋略机使用)。
在张开之前,咱们先亮出中枢不雅点,亦然本文想要传达的主旨:透过GPT-5.4,咱们不错看到,OpenAI正在打造的,早已不是一个更贤慧的聊天模子,而是一个全新的“AI操作系统”(AI OS)。
从长高下文、用具调用到原生操控电脑,这一切王人是在为这个“操作系统”铺路。本日下还在为OpenClaw的爆火而答应,为Agent的见解而欢腾时,OpenAI还是将Agent的中枢才略(Computer-Use)内建于模子底层。
天下大略还浑然不知,但咱们正站在一个新时间的起原:AI行将从“产物诓骗”转念为“操作平台”。
01 操作系统”的内核:推理+编码+责任流比拟Google的Gemini 精明于天下常识,OpenAI 的ChatGPT系列庸碌会被界说为“理科生”。
自然自升级到 GPT-5 以后,它给东说念主提供情谊价值的才略略有减轻,但编程和数学才略仍然极为出色。
这一次,为了让才略溢出的 AI 能够在 Agent 时间奏凯落地到具体诓骗上,GPT-5.4 完结了一项中枢技巧冲突:
将推理、编码、智能体责任流三方面才略整合至单一模子架构之中 。
通俗来说,GPT-5.4 更万能了,何况在特定鸿沟的才略也更强了,它不再是一个单一功能的用具,而是一个具备通用才略的“操作系统内核”。
在推理层面,为了更好地落实到诓骗层面、让模子具备实施复杂任务的才略,OpenAI 专诚强化了 GPT-5.4 的高下文领会才略。
濒临 100万 token 量级的复杂任务(十分于不错一次性处理整套技俩文档或万古财务记载),模子能够整合海量的数据并正确进行信息去重 。对于单条事实宣称的无理率比拟 GPT-5.2 责难了 33%,在高专科度场景下的输出愈加确切。
除此除外,GPT-5.4 还是不错在 CodeX 中诞生扶植 1M 的高下文窗口,不外需要用户在 config.toml 中手动诞生,不然默许仍为 256k。
具体到常识责任,在面向 44 种干事的 GDPval 基准测试中,GPT-5.4 能够在 83% 以上的场景中达到以致杰出行业大家水平 。
比拟于 GPT-5.2 的 70.9% 水平,这一种植幅度还是十分显赫。不外令东说念主有些狐疑的是,GPT-5.4 的 Pro 版块模子反而施展略逊于 GPT-5.4。(官方解释为 Pro 版块更侧重于极点复杂任务的踏实性,而非通用场景的对等分)
为了更好地让 GPT-5.4 融入东说念主们的内容责任场景,OpenAI 在官方先容中直不雅展现了新版块模子在电子表格、文档和幻灯片三个场景的专科级施展:
除此除外,GPT-5.4 得回的显赫进步,在金融和法律等高专科度鸿沟也施展了至关挫折的作用。
多家国外机构的反应知道,新模子在财务建模、条约分析、长周期任求实施中准确率种植的同期,用户与 AI 的交互频次也减少了好多,显赫裁减了任务完成时刻。
针对最受设备者温雅的编码场景,GPT-5.4 保捏了与 GPT-5.3-Codex 生成同等质地代码的才略,莫得显赫的种植。不外,新增多的“/fast”模式能够完结约 1.5倍 的 token 生成速率 。
智能体方面,用具调用才略是智能体完成任务的中枢,新引入的“用具搜索 (Tool Search)”机制让模子能够在数万个用具的大型生态中按需调用才略,在准确率保捏不变的情况下token挥霍量惊东说念主地下落了47% 。
这恰是“操作系统”调度底层资源的时势,高效且精确。
02 原生谋略机操作:从领会到实施,这即是“操作系统”的界面AI 的形态还是从大言语模子演进到了智能体,想要完结产物的生意化就必须让 AI 能真确帮东说念主们作念事。
于是,全球的AI企业异曲同工地将眼力放到了用户PC的截止权上。
然而,多样桌面端代剪发布一段时刻后,下载率和留存率其实王人不睬想。哪怕是对于 ChatGPT 的 9.56 亿月活用户而言,也有好多东说念主不肯意单独下载一个桌面端代理软件 。
大众早已习尚和 AI(大言语模子)聊天,却还没安妥让 AI(智能体代理)摄取电脑。
于是,OpenAI想出了一个天才般的点子:让用户每天王人在用的大模子操控电脑,无谓专门下载装置。
于是,GPT-5.4 做贼心虚地成为了第一个具备原生谋略机操作才略的通用模子 。
旨趣其实并不复杂,它能够字据屏幕截图发出鼠标键盘请示,也不错通过 Playwright 等库编写代码来顺利操作软件系统 。
比拟于需要专门磨真金不怕火身手使用的 PC 端代理助手不同,GPT-5.4 聘任将操控电脑的才略顺利内建于通用架构之中,设备者在归并模子中即可无缝切换推理、编码或实施任务。正如“操作系统”自然领有底层硬件(键鼠、屏幕)的驱动同样。
一提到操控电脑,那安全问题就不可掩盖。
GPT-5.4 的行为可通过设备者的输入进行详尽化调度,以此安妥不同诓骗场景的需求 。
为了确保安全,设备者不错确立自界说的安全阐明战略,字据任务风险品级诞生不同的操作阐明机制。
数据查询、代码编写等低风险任务诞生成自动实施,NBA篮球下注app最新版资金操作、文献改变则必须东说念主工阐明,既能保证系统安全,又能种植责任流的实施成果。
在 OSWorld-Verified 基准测试中,GPT-5.4 完结了 75% 的告捷率,杰出东说念主类基准(72.4%) 的同期,大幅最先于前代 GPT-5.2 的 47.3% 水平,足以证明新模子在 PC 端任务场景中的实用和可靠 。
而在浏览器自动化方面,GPT-5.4 在 WebArena-Verified 和 Online-Mind2Web 测试中,依靠截图为主的门径差别得到 67.3% 和 92.8% 的告捷率。
这就意味着,模子即便不看望网页底层架构,仅凭视觉信息即可完成复杂的网页交互任务,这主要归功于底层视觉感知才略的系统性种植。
传统多模态鸿沟的种植相对较小,MMMU-Pro 视觉领会与推理测试中,模子的准确率从 79.5% 种植至 81.2%;但对于结构化信息的识别才略则显赫种植,模子在 OmniDocBench 文档剖析基准测试中的平均无理率从 0.140 降至 0.109 。
也即是说,模子更善于处理复杂的 PDF、扫描文档等责任环境中常见的文献类型,不会像曩昔同样一遭遇表格和插图就无法可想。
针对高密度的界面和详尽操作的需求,GPT-5.4 新增的“original”图像输入级别扶植最高 1024 万像素的全保真感知。
字据用户反应,模子在处理企业级 ERP 系统、财务报表或工程筹画软件等复杂界面时,高分辨率模式下的界面元素定位准确率和点击操作告捷率王人有显赫种植。
03 内容测试:操作系统之战,从一张野蛮入场券驱动在这份官方先容中,OpenAI 试图用无数基准测试的跑分末端和着名机构的专科评价来证明模子才略之遍及。
尽管东说念主们普遍不太信任基准测试的分数,但几项内容测试的末端却证明了 OpenAI 所言非虚。
最先是 Artificial Analysis 的评测榜单,如料到一般,智能进度、编码才略、代理才略同期登顶:
若是这还不及够具有劝服力,那还不错望望 X 平台上的一项空洞性测试:
原视频贯串:https://x.com/angaisb_/status/2029635731585372598?s=46&t=E5aK_KpbsE6EAIfDJWZvzQ
这是 X 平台上用户 @Angaisb_ 用 GPT-5.4 编写的 Minecraft 游戏,不管是主视角的行为逻辑(奔走、跨越、搭建),照旧游戏中方块的材质和好意思不雅进度,险些王人无可抉剔。
一个 demo 中展示出的内容,还是与 Minecraft 初期版块的质地出入无几。
由此可见,GPT-5.4 的功能是实打实的遍及,也确乎具备十分高的内容价值。
但俗语说得好,一分钱一分货,如斯遍及的功能自然意味着极其野蛮的用度。
比拟 GPT-5.2,价钱涨幅十分惊东说念主,以致有效户在模子刚发布后的几个小时内默示,只是是打了个呼唤问了个问题,几百好意思元就不翼而飞了 。
如斯遍及的才略和野蛮的订价,似乎与 OpenAI 官方界说的“才略溢出”有些首尾乖互。
如今,OpenClaw 带动了 token 老本极其便宜的国产大模子爆火,GPT 系列产物还是跌出使用量排名榜的前十,为何 OpenAI 还敢给 GPT-5.4 定下如斯高的价钱?
算力资源的病笃自然不必多说,但更深层的谜底大略藏在 OpenAI 近期生意化战略的私密转向之中。
据悉,OpenAI 正在缩减 ChatGPT 诓骗内的顺利购买决策,不再将聊天界面看成闭环往还的中枢场景,而是优先扶植外部诓骗处理购买行为 。
这标明,OpenAI 正在从“顺利面向消费者变现”转向“通过生态环境迤逦赚钱”。
OpenAI 将 GPT-5.4 定位为专科的基础设施,通过才略溢价筛选出高价值的客户;而闲居用户的变现需求,则交给 Notion、Cursor 等集成 ChatGPT 才略的第三方生态来贯串,无需顺利承担野蛮的 API 老本即可通过勾通伙伴的产物迤逦体验模子才略 。
而老练桌面智能代理的一又友可能会在意到,GPT-5.4 的原生谋略机操作才略其实与 OpenClaw 的想路高度相似:AI 需要看懂界面、操作软件、完成任务。
不外,GPT-5.4 更进一步,让用户跳过下载装置和确立底层大模子等无法不详的设施,顺利体验“开箱即用”,试图取代当下这款最潮水的智能代理产物 。
但这并非易事。若要取代 OpenClaw,OpenAI 要么处治 Agent 代理快速挥霍 token 的问题,要么责难 token 老本。而现在看来,前者的但愿会更大一些。
OD体育(ODSports)官网入口总体来看,OpenAI 的聘任还是十分明晰:用高订价筛选高价值客户,用生态勾通和无门槛产物覆盖大众阛阓,用成果优化证明“贵有贵的兴味”。
但对于闲居用户来说,最佳的战略仍然是:保捏温雅、感性评估、按需聘任。不必急于顺利购买高价 API,极致的性价比才是 Agent 时间的标的。
估计词,咱们最弗成冷落阿谁正在发生的、静暗暗的创新:OpenAI正在打造的,是一个以“Computer-Use”为中枢,整合了长高下文、用具调用、推理与编码才略的“AI操作系统”。
当这个“操作系统”渐渐训诫篮球投注app,今天对于价钱和OpenClaw的琢磨,王人将只是历史的注脚。天下还在为某一款诓骗的爆火而狂欢,但真确的操作系统之战,还是打响了。