昨天,OpenAI在凌晨正式推出了全新的“ChatGPT Agent”,这一产品整合了此前的Operator和DeepResearch两大系统。
图片
Operator善于网页互动,能像人一样浏览网站、点击按钮、填写表单,但它读文章太慢,需要慢慢滚动。
DeepResearch擅长信息挖掘,能从全网抓取材料、整合分析并生成研究报告,但它基本不会和网页互动。
一个慢工细磨,一个信息狂魔。OpenAI最终决定把两者的长处整合,推出“统一的Agent系统”。
这个Agent能同时调度文本浏览器、图形界面浏览器和代码终端,还跑在一个虚拟机中。
这意味着,它不只是读网页、分析网页,还能执行代码、访问API、创建文档,真正具备“工具使用能力”。
OpenAI称之为“agentic能力”:自主选工具,自动完成任务。
一、它究竟能做什么?
图片
OpenAI官网:https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/
这个Agent可以完成一整套复杂任务,而不是只回答问题。比如,它可以帮你制定早餐菜单、查价格、比对营养、列清单、生成购物链接。
还能帮你分析竞争对手,写分析报告,顺手做个PPT。还可以抓取最新的日程变动新闻,自动更新你的日历和提醒事项。
图片
所有这些,不是靠插件,而是它自己在“动手”。
Agent会在执行中自行判断,是该打开图形界面浏览器,还是用文本版浏览器,或者该写段代码。
它能主动登录网站,筛选信息,提取结果,还能生成可编辑文档,比如Excel表格或幻灯片。
更重要的是,它不会盲目行动。在执行任何有后果的操作前,它会先征求用户确认。你也可以随时打断它的行为,手动接管。它还会主动提问,如果不清楚目标或数据不全,就会暂停任务请求更多信息。
此外,核心模型在多项基准测试中刷新纪录。在被称为“人类最后的考试”的HLE测试中拿下41.6的高分。低于马斯克的Gork 4 heavy。
图片
在复杂数学基准FrontierMath中准确率达27.4%。在SpreadsheetBench中,它在电子表格处理上也超过了现有AI工具Copilot。
浏览器测试BrowseComp中,它比DeepResearch高出17.4个百分点。
这套系统如今面向Pro、Plus和Team用户开放,未来将逐步覆盖企业与教育用户。
不过,PPT功能仍处于beta阶段,OpenAI也承认目前生成内容较为粗糙。
关于额度,Pro用户每月可使用400次,Plus与Team用户为40次。首次允许用户购买额外次数。
图片
使用方式就在GPT网页的工具一栏。(目前小编的这个功能还没给开放o(╥﹏╥)o)
二、能力提升背后的代价
拥有强大行动力的Agent,也意味着带来更高的安全风险。OpenAI承认:新Agent的整体风险水平“更高”。
最突出的风险之一是“提示注入攻击”。即黑客通过网页中的隐藏命令欺骗Agent执行不当操作。
OpenAI为此进行了针对性训练,让模型识别这类威胁。它还设有实时监控机制,对关键操作强制双重确认。
例如,发送邮件前会启动“观察模式”监控,银行转账等高风险任务被默认屏蔽。
OpenAI将这个Agent归入“具备高度生物和化学能力”的模型级别。
根据其“安全准备框架”,它已启动迄今最全面的安全体系。这包括构建详细威胁模型、部署专门分类器监测滥用、建立异常行为升级流程。
还请来生物安全专家进行“红队测试”,模拟真实攻击。开发过程中,OpenAI与多家安全研究机构展开合作。
此外,还开放了漏洞奖励计划,邀请外部开发者寻找潜在风险。
随着Agent与用户日常操作融合更深,OpenAI将持续强化多层防护。
而与此同时,Operator将被正式下线,其核心功能已被完全整合进新Agent中。
三、Manus们的时间不多了,Agent赛道被彻底改写
OpenAI的这次“亲自下场”,对整个Agent行业格局造成了冲击。
几个月前,Manus曾被称为“国产Agent的希望”,其展示的能力与这次OpenAI发布的Agent高度相似。
但不同的是,OpenAI不是做了一个“演示工具”,而是把这种能力“做进了系统底层”。
Agent不再是工具集合,而是AI架构的一部分。
这让Manus式的初创路线面临一个根本性问题:基础设施层的机会已经被巨头锁死。
就像朱啸虎公开表示的那样:“大模型会吃掉90%的Agent。”
AI产业的“二次演进”,很可能从“对话代理”过渡到“行为代理”,而ChatGPT Agent就是这条路径的起点。
过去一年,市场上出现了大量以Agent为卖点的AI创业公司。
但它们很多只是简单把几个开源工具粘在一起,跑个流程演示,缺乏对系统能力的整合。
而ChatGPT Agent的出现,把“粘合工具”的玩家一夜之间打回了原形。
更残酷的是,OpenAI Agent的迭代方式已从静态微调转向“端到端强化学习”。
这意味着,模型通过真实任务来训练“动手能力”,其学习方式与人类更接近,升级速度更快。
图片
如今,再看当时奥特曼有点狂的话语,是不是值得一些初创企业思考思考?