AIGC宇宙 AIGC宇宙

OpenAI重磅发布AgentKit - AI代理开发进入全新时代

在AgentKit问世之前,开发AI代理意味着要在碎片化的工具之间艰难周旋——复杂的编排系统没有版本控制、定制连接器开发、手动评估流程、提示调优,以及在正式发布前数周的前端开发工作。 如今,AgentKit让开发者能够通过可视化界面设计工作流,并使用全新的构建模块更快速地嵌入代理用户界面。 AgentKit核心组件全解析Agent Builder:提供可视化画布,用于创建和版本管理多代理工作流,支持拖拽式节点操作、工具连接和自定义防护栏配置。

在AgentKit问世之前,开发AI代理意味着要在碎片化的工具之间艰难周旋——复杂的编排系统没有版本控制、定制连接器开发、手动评估流程、提示调优,以及在正式发布前数周的前端开发工作。如今,AgentKit让开发者能够通过可视化界面设计工作流,并使用全新的构建模块更快速地嵌入代理用户界面。

AgentKit核心组件全解析

Agent Builder:提供可视化画布,用于创建和版本管理多代理工作流,支持拖拽式节点操作、工具连接和自定义防护栏配置。

Connector Registry:为管理员提供统一的数据和工具连接管理中心,覆盖所有OpenAI产品线。

ChatKit:专为在产品中嵌入可定制的基于聊天的代理体验而设计的工具包。

此外,OpenAI还扩展了评估能力,新增数据集、追踪评分、自动提示优化和第三方模型支持等功能,全面提升代理性能测量和改进能力。

Agent Builder:从复杂编排到可视化设计

随着代理工作流变得愈发复杂,开发者急需更清晰的可视化管理工具。Agent Builder正是为此而生,它提供了一个可视化画布,支持通过拖拽节点组合逻辑、连接工具并配置自定义防护栏。该平台支持预览运行、内联评估配置和完整版本控制,非常适合快速迭代开发。

图片图片

"Agent Builder彻底改变了我们的开发流程。过去需要数月复杂编排、定制代码和手动优化的工作,现在只需几个小时就能完成。可视化画布让产品、法务和工程团队保持同步,迭代周期缩短了70%,代理上线时间从两个季度缩短到两个冲刺周期。" —— Ramp团队

日本领先的科技和互联网服务公司LY Corporation同样受益匪浅,他们使用Agent Builder在不到两小时内就构建出了工作助手代理。

"Agent Builder让我们以全新的方式编排代理,工程师和领域专家能够在同一个界面中协作。我们构建了第一个多代理工作流并在不到两小时内运行起来,极大地加速了代理创建和部署的时间。" —— LY Corporation

企业级数据管理:Connector Registry

OpenAI同时推出了面向企业的Connector Registry,用于跨多个工作空间和组织治理和维护数据。该注册表将数据源整合到一个统一的管理面板中,覆盖ChatGPT和API。注册表包含所有预构建连接器,如Dropbox、Google Drive、SharePoint和Microsoft Teams,以及第三方MCP连接器。

开发者还可以在Agent Builder中启用Guardrails——一个开源的模块化安全层,帮助保护代理免受意外或恶意行为的影响。Guardrails能够屏蔽或标记个人身份信息、检测越狱攻击并应用其他安全防护措施,让构建和部署可靠、安全的代理变得更加容易。

ChatKit:简化代理聊天体验嵌入

为代理部署聊天用户界面往往比预期更复杂——需要处理流式响应、管理对话线程、显示模型思考过程,以及设计引人入胜的聊天体验。ChatKit让在产品中嵌入原生感的基于聊天的代理变得简单。它可以嵌入到应用或网站中,并可定制以匹配您的主题或品牌。

"我们使用ChatKit为Canva开发者社区构建支持代理,节省了超过两周的开发时间,并在不到一小时内完成集成。这个支持代理将彻底改变开发者与我们文档的互动方式,将其转变为对话式体验,让在Canva上构建应用和集成变得更加容易。" —— Canva

ChatKit已经支持从内部知识助手、入职指南到客户支持和研究代理等多种使用场景。HubSpot的客户支持代理就是其中一个典型例子。

全新Evals能力:精准测量代理性能

构建可靠的生产级代理需要严格的性能评估。去年,OpenAI推出了Evals来帮助开发者测试提示和测量模型行为。现在,他们新增了四项能力,让构建评估变得更加容易:

• 数据集 - 从零开始快速构建代理评估,并通过自动评分器和人工注释持续扩展

• 追踪评分 - 对代理工作流进行端到端评估,并自动化评分以精准定位不足之处

• 自动提示优化 - 基于人工注释和评分器输出生成改进的提示

• 第三方模型支持 - 在OpenAI Evals平台内评估其他提供商的模型

图片图片

图片图片

"评估平台将我们多代理尽职调查框架的开发时间缩短了超过50%,并将代理准确性提升了30%。" —— Carlyle

强化微调推动代理性能新突破

强化微调(RFT)让开发者能够定制OpenAI的推理模型。该功能在OpenAI o4-mini上正式可用,在GPT-5上处于私人测试阶段。OpenAI正与数十家客户密切合作,在更广泛发布前完善GPT-5的RFT功能。

今天,OpenAI在RFT测试版中引入了两项旨在进一步推动代理性能的新功能:

• 自定义工具调用 - 训练模型在正确的时间调用正确的工具以获得更好的推理能力

• 自定义评分器 - 为您的使用场景中最重要的方面设置自定义评估标准

定价与可用性

从今天开始,ChatKit和新的Evals功能已向所有开发者正式开放。Agent Builder目前处于测试版阶段,Connector Registry正在向部分拥有全局管理控制台的API、ChatGPT Enterprise和Edu客户开始测试版推出。所有这些工具都包含在标准API模型定价中。

OpenAI计划很快向ChatGPT添加独立的Workflows API和代理部署选项。

行业影响与未来展望

AgentKit的发布标志着AI代理开发进入了一个全新的时代。通过将复杂的技术门槛降低为可视化操作,OpenAI不仅让更多企业能够快速构建和部署AI代理,也为整个行业树立了新的标准。

从Klarna处理三分之二客服工单的支持代理,到Clay实现10倍增长的销售代理,再到Ramp从空白画布到功能完整采购代理的数小时构建,这些成功案例充分证明了AgentKit在实际业务场景中的巨大价值。

随着AI代理技术的不断成熟和工具的持续完善,我们有理由相信,未来将有更多企业能够通过AgentKit这样的平台,快速实现AI代理的落地应用,推动业务的智能化转型。

正如OpenAI所说:"我们迫不及待地想看到你们的创造。"

相关资讯

o1 研发团队完整采访:Ilya早期曾参与,灵感源于AlphaGo

自从 OpenAI 的 o1 问世以来,它强大的推理能力就承包了 AI 圈近期的热搜。不需要专门训练,它就能直接拿下数学奥赛金牌,甚至可以在博士级别的科学问答环节上超越人类专家。展示 o1 实力的 demo,我们看了不少,评估 o1 表现的评测,全网比比皆是,关于 o1 技术路线的讨论也如火如荼,引发了广泛的关注和深入的思考。不过 o1 背后的故事,还鲜为人知,那些在幕后默默付出的团队成员们,他们的故事同样值得被讲述和铭记。刚刚,OpenAI 发布了 o1 研发团队的完整访谈,为我们揭秘了 o1 的「成长历程」。o
9/22/2024 1:27:00 PM
机器之心

LeCun批评o1根本不像研究,Noam Brown回怼:已发表的研究都是废话

图灵奖三巨头之一 Yann LeCun 又和别人吵起来了,这次是 Noam Brown。Noam Brown 为 OpenAI o1 模型的核心贡献者之一,此前他是 Meta FAIR 的一员,主导了曾火遍一时的 CICERO 项目,在 2023 年 6 月加入 OpenAI  。这次吵架的内容就是围绕 o1 展开的。众所周知,从 AI 步入新的阶段以来,OpenAI 一直选择了闭源,o1 的发布也不例外。这也引来了广大网友的吐槽,干脆叫 CloseAI 算了,反观 Meta,在开源领域就做的很好,o1 的发布,更
9/30/2024 2:12:00 PM
机器之心

OpenAI o1 推理模型 API 上线,仅面向特定开发者开放

“OpenAI 12 天”活动进入第 9 天,OpenAI 今日宣布,其“推理”人工智能模型 o1 正式通过 API 向部分开发者开放,并同步更新了包括 GPT-4o、实时 API 以及微调 API 等多项开发者工具。
12/18/2024 7:00:24 AM
远洋
  • 1