Scaling La

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

OpenAI去年挖的坑填上了！奖励模型首现Scaling Law，1.8B给70B巨兽上了一课

一直以来，让AI更懂人类都是大模型领域的核心议题。而奖励模型（RM）便是解决如何「理解人类偏好」的核心技术，同时也是限制后训练效果的关键因素。 2024年12月，OpenAI提出了一种新的强化微调（Reinforcement Fine-tuning，RFT）技术。

7/11/2025 1:33:03 PM

新智元

资讯热榜

GGUF 是什么？一文看懂大模型里最火的模型格式 AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评深度拆解！这可能是全网最详细的AI视频创作教程如何去除AI绘画的油腻感？这2个实用方法别错过！ Gemini 3重磅发布，我连夜整理了3大核心亮点与5种免费用方法！ OpenAI 首次推出 ChatGPT 群聊功能，将在韩国与新西兰率先试点

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习技术智能体马斯克 Gemini Anthropic 英伟达图像 AI创作训练 LLM 论文代码算法 AI for Science 苹果 Agent Claude 腾讯芯片 Stable Diffusion 蛋白质开发者 xAI 具身智能生成式神经网络机器学习 3D 人形机器人 AI视频 RAG 大语言模型研究百度 Sora 生成 GPU 工具华为计算字节跳动 AI设计 AGI 大型语言模型搜索生成式AI 视频生成场景 DeepMind 特斯拉深度学习 AI模型架构亚马逊 MCP Transformer 编程视觉预测