OpenAI重磅发布AgentKit - AI代理开发进入全新时代

在AgentKit问世之前，开发AI代理意味着要在碎片化的工具之间艰难周旋——复杂的编排系统没有版本控制、定制连接器开发、手动评估流程、提示调优，以及在正式发布前数周的前端开发工作。如今，AgentKit让开发者能够通过可视化界面设计工作流，并使用全新的构建模块更快速地嵌入代理用户界面。 AgentKit核心组件全解析Agent Builder：提供可视化画布，用于创建和版本管理多代理工作流，支持拖拽式节点操作、工具连接和自定义防护栏配置。

在AgentKit问世之前，开发AI代理意味着要在碎片化的工具之间艰难周旋——复杂的编排系统没有版本控制、定制连接器开发、手动评估流程、提示调优，以及在正式发布前数周的前端开发工作。如今，AgentKit让开发者能够通过可视化界面设计工作流，并使用全新的构建模块更快速地嵌入代理用户界面。

AgentKit核心组件全解析

Agent Builder：提供可视化画布，用于创建和版本管理多代理工作流，支持拖拽式节点操作、工具连接和自定义防护栏配置。

Connector Registry：为管理员提供统一的数据和工具连接管理中心，覆盖所有OpenAI产品线。

ChatKit：专为在产品中嵌入可定制的基于聊天的代理体验而设计的工具包。

此外，OpenAI还扩展了评估能力，新增数据集、追踪评分、自动提示优化和第三方模型支持等功能，全面提升代理性能测量和改进能力。

Agent Builder：从复杂编排到可视化设计

随着代理工作流变得愈发复杂，开发者急需更清晰的可视化管理工具。Agent Builder正是为此而生，它提供了一个可视化画布，支持通过拖拽节点组合逻辑、连接工具并配置自定义防护栏。该平台支持预览运行、内联评估配置和完整版本控制，非常适合快速迭代开发。

图片

"Agent Builder彻底改变了我们的开发流程。过去需要数月复杂编排、定制代码和手动优化的工作，现在只需几个小时就能完成。可视化画布让产品、法务和工程团队保持同步，迭代周期缩短了70%，代理上线时间从两个季度缩短到两个冲刺周期。" —— Ramp团队

日本领先的科技和互联网服务公司LY Corporation同样受益匪浅，他们使用Agent Builder在不到两小时内就构建出了工作助手代理。

"Agent Builder让我们以全新的方式编排代理，工程师和领域专家能够在同一个界面中协作。我们构建了第一个多代理工作流并在不到两小时内运行起来，极大地加速了代理创建和部署的时间。" —— LY Corporation

企业级数据管理：Connector Registry

OpenAI同时推出了面向企业的Connector Registry，用于跨多个工作空间和组织治理和维护数据。该注册表将数据源整合到一个统一的管理面板中，覆盖ChatGPT和API。注册表包含所有预构建连接器，如Dropbox、Google Drive、SharePoint和Microsoft Teams，以及第三方MCP连接器。

开发者还可以在Agent Builder中启用Guardrails——一个开源的模块化安全层，帮助保护代理免受意外或恶意行为的影响。Guardrails能够屏蔽或标记个人身份信息、检测越狱攻击并应用其他安全防护措施，让构建和部署可靠、安全的代理变得更加容易。

ChatKit：简化代理聊天体验嵌入

为代理部署聊天用户界面往往比预期更复杂——需要处理流式响应、管理对话线程、显示模型思考过程，以及设计引人入胜的聊天体验。ChatKit让在产品中嵌入原生感的基于聊天的代理变得简单。它可以嵌入到应用或网站中，并可定制以匹配您的主题或品牌。

"我们使用ChatKit为Canva开发者社区构建支持代理，节省了超过两周的开发时间，并在不到一小时内完成集成。这个支持代理将彻底改变开发者与我们文档的互动方式，将其转变为对话式体验，让在Canva上构建应用和集成变得更加容易。" —— Canva

ChatKit已经支持从内部知识助手、入职指南到客户支持和研究代理等多种使用场景。HubSpot的客户支持代理就是其中一个典型例子。

全新Evals能力：精准测量代理性能

构建可靠的生产级代理需要严格的性能评估。去年，OpenAI推出了Evals来帮助开发者测试提示和测量模型行为。现在，他们新增了四项能力，让构建评估变得更加容易：

• 数据集 - 从零开始快速构建代理评估，并通过自动评分器和人工注释持续扩展

• 追踪评分 - 对代理工作流进行端到端评估，并自动化评分以精准定位不足之处

• 自动提示优化 - 基于人工注释和评分器输出生成改进的提示

• 第三方模型支持 - 在OpenAI Evals平台内评估其他提供商的模型

图片

"评估平台将我们多代理尽职调查框架的开发时间缩短了超过50%，并将代理准确性提升了30%。" —— Carlyle

强化微调推动代理性能新突破

强化微调(RFT)让开发者能够定制OpenAI的推理模型。该功能在OpenAI o4-mini上正式可用，在GPT-5上处于私人测试阶段。OpenAI正与数十家客户密切合作，在更广泛发布前完善GPT-5的RFT功能。

今天，OpenAI在RFT测试版中引入了两项旨在进一步推动代理性能的新功能：

• 自定义工具调用 - 训练模型在正确的时间调用正确的工具以获得更好的推理能力

• 自定义评分器 - 为您的使用场景中最重要的方面设置自定义评估标准

定价与可用性

从今天开始，ChatKit和新的Evals功能已向所有开发者正式开放。Agent Builder目前处于测试版阶段，Connector Registry正在向部分拥有全局管理控制台的API、ChatGPT Enterprise和Edu客户开始测试版推出。所有这些工具都包含在标准API模型定价中。

OpenAI计划很快向ChatGPT添加独立的Workflows API和代理部署选项。

行业影响与未来展望

AgentKit的发布标志着AI代理开发进入了一个全新的时代。通过将复杂的技术门槛降低为可视化操作，OpenAI不仅让更多企业能够快速构建和部署AI代理，也为整个行业树立了新的标准。

从Klarna处理三分之二客服工单的支持代理，到Clay实现10倍增长的销售代理，再到Ramp从空白画布到功能完整采购代理的数小时构建，这些成功案例充分证明了AgentKit在实际业务场景中的巨大价值。

随着AI代理技术的不断成熟和工具的持续完善，我们有理由相信，未来将有更多企业能够通过AgentKit这样的平台，快速实现AI代理的落地应用，推动业务的智能化转型。

正如OpenAI所说："我们迫不及待地想看到你们的创造。"

OpenAI重磅发布AgentKit - AI代理开发进入全新时代

AgentKit核心组件全解析

Agent Builder：从复杂编排到可视化设计

企业级数据管理：Connector Registry

ChatKit：简化代理聊天体验嵌入

全新Evals能力：精准测量代理性能

强化微调推动代理性能新突破

定价与可用性

行业影响与未来展望

相关资讯

o1 研发团队完整采访：Ilya早期曾参与，灵感源于AlphaGo

LeCun批评o1根本不像研究，Noam Brown回怼：已发表的研究都是废话

OpenAI o1 推理模型 API 上线，仅面向特定开发者开放