OpenAI 突破传统微调，RFT 技术可精准定制 o4-mini 模型

作者：故渊 2025-05-09 01:50

OpenAI 公司在其 o4-mini 推理模型上，推出了强化微调技术（Reinforcement Fine-Tuning, 简称 RFT），为定制基础模型以适应特定任务带来了突破性工具。

科技媒体 marktechpost 今天（5 月 9 日）发布博文，报道称 OpenAI 公司在其 o4-mini 推理模型上，推出了强化微调技术（Reinforcement Fine-Tuning, 简称 RFT），为定制基础模型以适应特定任务带来了突破性工具。

OpenAI 的强化微调技术（RFT）将强化学习原理融入语言模型的微调过程。开发者不再仅依赖标注数据，而是通过设计任务特定的评分函数（grader）来评估模型输出。

这些评分函数根据自定义标准（如准确性、格式或语气）为模型表现打分，模型则通过优化奖励信号逐步学习，生成符合期望的行为。这种方法尤其适合难以定义标准答案的复杂任务，例如医疗解释的措辞优化，开发者可通过程序评估清晰度与完整性，指导模型改进。

o4-mini 是 OpenAI 于 2025 年 4 月发布的一款紧凑型推理模型，支持文本和图像输入，擅长结构化推理和链式思维提示（chain-of-thought prompts）。

通过在 o4-mini 上应用 RFT，OpenAI 为开发者提供了一个轻量但强大的基础模型，适合高风险、领域特定的推理任务，其计算效率高，响应速度快，非常适合实时应用场景。

多家早期采用者已展示 RFT 在 o4-mini 上的潜力，凸显 RFT 在法律、医疗、代码生成等领域的定制化优势，AI在线附上相关案例如下：

Accordance AI 开发税务分析模型，准确率提升 39%；
Ambience Healthcare 优化医疗编码，ICD-10 分配性能提升 12 个百分点；
法律 AI 初创公司 Harvey 提升法律文档引文提取的 F1 分数 20%；
Runloop 改进 Stripe API 代码生成，性能提升 12%；
调度助手 Milo 和内容审核工具 SafetyKit 也分别取得显著进步。

使用 RFT 需完成四步：设计评分函数、准备高质量数据集、通过 OpenAI API 启动训练任务，以及持续评估和优化。

OpenAI 突破传统微调，RFT 技术可精准定制 o4-mini 模型

RFT 目前向认证组织开放，训练费用为每小时 100 美元，若使用 GPT-4o 等模型作为评分工具，额外按标准推理费率计费。OpenAI 还推出激励措施，同意共享数据集用于研究的组织可享受 50% 的训练费用折扣。

OpenAI o4-mini携强化微调正式上线，AI专业能力迈向专家级

5月8日，OpenAI o4-mini携强化微调正式上线。这两项技术的结合彻底改变了AI专业化的成本结构和技术门槛，让企业能以少量训练数据将通用AI迅速转变为特定领域的专家系统。从通用智能到专家级AI的跨越式飞跃强化微调技术作为此次发布的核心亮点，标志着OpenAI在定制化模型领域取得重大突破。

5/9/2025 5:00:51 PM

AI在线

OpenAI CEO 奥尔特曼宣布本周将推出多款新产品

OpenAI 的创始人兼首席执行官山姆・奥尔特曼在社交平台𝕏上发布消息，宣布接下来的一周将推出 “很多” 令人期待的新产品。这些产品将从周二开始陆续上线，吸引了众多科技爱好者和业内人士的关注。奥尔特曼在本月初曾提到，OpenAI 可能会在几周内发布新版本的 o3和 o4-mini，并预计在未来几个月发布 GPT-5。

4/14/2025 10:01:22 AM

AI在线

OpenAI 部署新监控系统，防范 o3 和 o4 - mini 提供生物和化学威胁建议

OpenAI宣布部署新监控系统，专门监测其AI模型o3和o4-mini，防止提供有害建议。系统识别风险提示并拒绝回应，阻断比例达98.7%。#AI安全# #OpenAI#

4/17/2025 6:46:36 AM

远洋

OpenAI 突破传统微调，RFT 技术可精准定制 o4-mini 模型

相关资讯

OpenAI o4-mini携强化微调正式上线，AI专业能力迈向专家级

OpenAI CEO 奥尔特曼宣布本周将推出多款新产品

OpenAI 部署新监控系统，防范 o3 和 o4 - mini 提供生物和化学威胁建议