强化学习

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

一个7B奖励模型搞定全学科，大模型强化学习不止数学和代码。 o1/r1的强化学习很强，但主要探索了数学和代码领域，因为这两个领域的数据结构化程度高，奖励函数/奖励模型比较好设计。那么，想提升大模型在其他学科领域的能力该怎么办？

4/3/2025 9:23:08 AM

量子位

小米大模型团队在音频推理领域取得重大突破，登顶国际评测榜

近日，小米大模型团队在音频推理领域的研究中取得了突破性进展，成功应用强化学习算法于多模态音频理解任务，准确率达到了64.5%，这一成就使其在国际权威的 MMAU 音频理解评测中夺得了第一名。这一成果的背后，离不开团队对 DeepSeek-R1的启发。 MMAU（Massive Multi-Task Audio Understanding and Reasoning）评测集是衡量音频推理能力的重要标准，通过对包含语音、环境声和音乐的多种音频样本进行分析，测试模型在复杂推理任务中的表现。

3/17/2025 2:13:00 PM

AI在线

小米大模型团队登顶音频推理 MMAU 榜，受到DeepSeek-R1启发

小米技术官方微博宣布，小米大模型团队在音频推理领域取得了显著进展。他们在受到 DeepSeek-R1的启发后，率先将强化学习算法应用于多模态音频理解任务。团队在短短一周内便以64.5% 的 SOTA（State Of The Art）准确率，登顶国际权威的 MMAU 音频理解评测榜，并同步将相关技术开源。

3/17/2025 11:43:00 AM

AI在线

万字梳理：揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025

在 DeepSeek 能够破圈而出的一众原因中，完全摒弃传统的监督微调（SFT）、转而采用大规模强化学习（RL）的创新之处是关键所在，这使得模型推理能力在质上取得显著突破，更证明了强化学习在提升大语言模型推理能力方面的巨大潜力。近几年，学界和业界关于 RL 和 LLM 也涌现出了颇多具备开创性意义的研究成果。在 AI 智能体推理与决策研讨会（AIR 2025）上，来自伦敦大学学院、加州大学伯克利分校、普林斯顿大学、华盛顿大学、卡内基梅隆大学、Meta、华为等多位学术界和工业界的研究人员围绕强化学习、推理决策、AI 智能体展开讨论，回答了诸多问题，例如：AI 系统如何模拟类人推理和决策过程？

3/3/2025 8:26:00 PM

王悦

OpenAI：强化学习确实可显著提高LLM性能，DeepSeek R1、Kimi k1.5发现o1的秘密

最近，OpenAI 发了一篇论文，宣称 o3 模型在 2024 IOI 上达到了金牌水平，并且在 CodeForces 上获得了与精英级人类相当的得分。他们是怎么做到的呢？ OpenAI 在论文开篇就用一句话进行了总结：「将强化学习应用于大型语言模型（LLM）可显著提高在复杂编程和推理任务上的性能。

2/19/2025 7:05:00 PM

机器之心

OpenAI联创Schulman闪电跳槽！从Anthropic转投Murati新公司

跑去隔壁Anthropic的OpenAI联创John Schulman，又又又跳槽了。《财富》爆料，Schulman新的去向，是加入原OpenAI首席技术官Mira Murati的新创业公司。此时距离他转投Anthropic，仅仅不到半年。

2/7/2025 10:13:16 AM

量子位

讲座预约丨四位专家大论道：大模型时代的强化学习丨GAIR live

站在科技创新的浪潮之巅，我们见证了人工智能领域的巨大飞跃，尤其是大模型技术与强化学习中的结合和突破性应用，正在引领我们进入一个全新的智能时代。在过去几年中，强化学习作为人工智能的一个重要分支，已经从理论研究的深奥殿堂走向了实践应用的广阔天地，从实验室的封闭空间走向了我们日常生活的各个角落。在自动驾驶、游戏AI、机器人控制等领域，强化学习的身影无处不在，它们正逐步成为我们生活中不可分割的一部分。

8/23/2024 11:43:00 AM

岑大师

对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

对人类越是简单的问题，大语言模型反而越难以做好？尽管现在的大模型已经有能力冲击数学竞赛级别的题目，但在像“9.11和9.9谁大”这样的简单问题上仍然会翻船。而从推特上网友对问题的讨论中猜测，出现这种错误的原因可能是由于大模型以token的方式来理解文字，当9.11被拆成“9”、“.”和“11”三部分时，11确实比9大。

7/18/2024 10:09:00 AM

岑大师

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能 DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟 ChatGPT 语音功能升级，实时翻译对话更自然流畅肝了30小时，Flux Kontext是我用过最稳、最能干活的AI图像模型！谷歌 Gemini 应用月下载量超越 ChatGPT，用户活跃度仍显不足长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画数据谷歌机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法代码英伟达 Anthropic 芯片生成式开发者蛋白质腾讯神经网络研究 3D 生成训练苹果计算智能体 Sora 机器学习 AI设计 AI for Science Claude GPU AI视频人形机器人华为搜索场景百度大语言模型 xAI 预测伟达深度学习 Transformer 字节跳动 Agent 模态具身智能神器推荐 LLaMA 文本视觉 Copilot 算力工具 LLM 驾驶 API 大型语言模型应用 RAG 亚马逊