AIGC宇宙 AIGC宇宙

Scaling La

OpenAI去年挖的坑填上了!奖励模型首现Scaling Law,1.8B给70B巨兽上了一课

一直以来,让AI更懂人类都是大模型领域的核心议题。 而奖励模型(RM)便是解决如何「理解人类偏好」的核心技术,同时也是限制后训练效果的关键因素。 2024年12月,OpenAI提出了一种新的强化微调(Reinforcement Fine-tuning,RFT)技术。
7/11/2025 1:33:03 PM
新智元
  • 1