强化学习

从反馈中学习：强化学习如何提升百晓生问答精准度

第一部分：引言在人工智能技术飞速发展的今天，智能问答系统已成为连接信息与用户的重要桥梁，它们不仅重塑着人机交互方式，更在提升服务效率、优化知识获取路径等方面展现出巨大潜力。在此背景下，"百晓生"作为一款基于RAG（检索增强生成）与外挂知识库的大型语言模型（LLM）驱动的问答产品，专注于为上门工程师提供精准的质检知识答疑服务。经过一年的持续迭代与优化，该产品已从最初的10%小流量实验，逐步开放至全国范围，目前每日稳定为超过3000名工程师提供支持，连续多周问答准确率保持在90% 。

10/30/2025 1:22:00 AM

车天博、李俊波、李莹莹

NeurIPS 2025｜火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架，视频时序理解大模型SOTA！

在人工智能与多媒体技术深度融合的当下，视频时序定位（Video Temporal Grounding）成为视频理解领域的核心任务之一，其目标是根据自然语言查询，在长段视频流中精准定位出与之匹配的时序片段。这一能力是智能视频剪辑、内容检索、人机交互、事件分析等众多场景落地的关键基础。例如，快速定位球赛进球瞬间、影视剧名场面、游戏高光镜头、响应“回放主角微笑片段” 、异常事件查看等需求，均依赖于高效精准的时序定位技术。

10/22/2025 10:16:02 AM

多媒体实验室

RLPT：用强化学习“重读”预训练数据，让大模型学会思考

大家好，我是肆〇柒。今天要和大家分享的是一项来自腾讯大模型部门（LLM Department, Tencent）与香港中文大学合作的前沿研究——RLPT（Reinforcement Learning on Pre-Training Data）。面对高质量数据增长见顶、计算资源持续膨胀的矛盾，这项工作提出了一种全新的训练范式：让大模型在原始预训练数据上通过强化学习自主探索推理路径，从而突破传统监督学习的泛化瓶颈。

10/11/2025 9:23:28 AM

肆零柒

从探索到验证：Parallel-R1 如何塑造大模型的"思考"哲学

大家好，我是肆〇柒。今天看看由腾讯AI Lab Seattle联合马里兰大学、北卡罗来纳大学、香港城市大学和圣路易斯华盛顿大学共同研究的工作——Parallel-R1，它首次通过强化学习让大语言模型真正掌握了"并行思考"这一人类高级认知能力，而非仅依赖推理时策略的临时拼凑。这项研究不仅刷新了AIME25数学竞赛基准测试的准确率记录，更揭示了机器"思考"方式的演化规律。

9/28/2025 9:00:00 AM

肆零柒

天塌！OpenAI两位o系列大佬Jason Wei和Hyung Won Chung被曝离职，疑似发推回应：要超越老师，须强化自己

编辑 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）Meta 化身“人才收割机”的节奏简直停不下来。此前从 OpenAI、谷歌花天价薪酬挖走了多达 8 位顶尖人才。现在，那个让我们非常熟悉的、经常在直播宣发中出现的大佬，o 系列模型的两位核心研究人员 Jason Wei 和 Hyung Won Chung，也被 Meta 一道挖走了。

7/16/2025 3:28:52 PM

云昭

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

大型语言模型（LLM）通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展，如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型，展现出强大的推理能力。然而，这种成功在不同的基础模型系列中难以复制，尤其是在 Llama 系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?强化学习在 Llama 模型上的扩展限制OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在竞赛级数学问题上通过大规模强化学习取得了突破，推动了对千亿参数以下小型模型强化学习能力的探索。

7/3/2025 12:00:57 PM

AI在线

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

一个7B奖励模型搞定全学科，大模型强化学习不止数学和代码。 o1/r1的强化学习很强，但主要探索了数学和代码领域，因为这两个领域的数据结构化程度高，奖励函数/奖励模型比较好设计。那么，想提升大模型在其他学科领域的能力该怎么办？

4/3/2025 9:23:08 AM

量子位

小米大模型团队在音频推理领域取得重大突破，登顶国际评测榜

近日，小米大模型团队在音频推理领域的研究中取得了突破性进展，成功应用强化学习算法于多模态音频理解任务，准确率达到了64.5%，这一成就使其在国际权威的 MMAU 音频理解评测中夺得了第一名。这一成果的背后，离不开团队对 DeepSeek-R1的启发。 MMAU（Massive Multi-Task Audio Understanding and Reasoning）评测集是衡量音频推理能力的重要标准，通过对包含语音、环境声和音乐的多种音频样本进行分析，测试模型在复杂推理任务中的表现。

3/17/2025 2:13:00 PM

AI在线

小米大模型团队登顶音频推理 MMAU 榜，受到DeepSeek-R1启发

小米技术官方微博宣布，小米大模型团队在音频推理领域取得了显著进展。他们在受到 DeepSeek-R1的启发后，率先将强化学习算法应用于多模态音频理解任务。团队在短短一周内便以64.5% 的 SOTA（State Of The Art）准确率，登顶国际权威的 MMAU 音频理解评测榜，并同步将相关技术开源。

3/17/2025 11:43:00 AM

AI在线

万字梳理：揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025

在 DeepSeek 能够破圈而出的一众原因中，完全摒弃传统的监督微调（SFT）、转而采用大规模强化学习（RL）的创新之处是关键所在，这使得模型推理能力在质上取得显著突破，更证明了强化学习在提升大语言模型推理能力方面的巨大潜力。近几年，学界和业界关于 RL 和 LLM 也涌现出了颇多具备开创性意义的研究成果。在 AI 智能体推理与决策研讨会（AIR 2025）上，来自伦敦大学学院、加州大学伯克利分校、普林斯顿大学、华盛顿大学、卡内基梅隆大学、Meta、华为等多位学术界和工业界的研究人员围绕强化学习、推理决策、AI 智能体展开讨论，回答了诸多问题，例如：AI 系统如何模拟类人推理和决策过程？

3/3/2025 8:26:00 PM

王悦

OpenAI：强化学习确实可显著提高LLM性能，DeepSeek R1、Kimi k1.5发现o1的秘密

最近，OpenAI 发了一篇论文，宣称 o3 模型在 2024 IOI 上达到了金牌水平，并且在 CodeForces 上获得了与精英级人类相当的得分。他们是怎么做到的呢？ OpenAI 在论文开篇就用一句话进行了总结：「将强化学习应用于大型语言模型（LLM）可显著提高在复杂编程和推理任务上的性能。

2/19/2025 7:05:00 PM

机器之心

OpenAI联创Schulman闪电跳槽！从Anthropic转投Murati新公司

跑去隔壁Anthropic的OpenAI联创John Schulman，又又又跳槽了。《财富》爆料，Schulman新的去向，是加入原OpenAI首席技术官Mira Murati的新创业公司。此时距离他转投Anthropic，仅仅不到半年。

2/7/2025 10:13:16 AM

量子位

讲座预约丨四位专家大论道：大模型时代的强化学习丨GAIR live

站在科技创新的浪潮之巅，我们见证了人工智能领域的巨大飞跃，尤其是大模型技术与强化学习中的结合和突破性应用，正在引领我们进入一个全新的智能时代。在过去几年中，强化学习作为人工智能的一个重要分支，已经从理论研究的深奥殿堂走向了实践应用的广阔天地，从实验室的封闭空间走向了我们日常生活的各个角落。在自动驾驶、游戏AI、机器人控制等领域，强化学习的身影无处不在，它们正逐步成为我们生活中不可分割的一部分。

8/23/2024 11:43:00 AM

岑大师

对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

对人类越是简单的问题，大语言模型反而越难以做好？尽管现在的大模型已经有能力冲击数学竞赛级别的题目，但在像“9.11和9.9谁大”这样的简单问题上仍然会翻船。而从推特上网友对问题的讨论中猜测，出现这种错误的原因可能是由于大模型以token的方式来理解文字，当9.11被拆成“9”、“.”和“11”三部分时，11确实比9大。

7/18/2024 10:09:00 AM

岑大师

资讯热榜

OpenAI 宣布印度用户可享受一年免费 ChatGPT Go 服务 DeepSeek-OCR：OCR 的新突破红杉资本注资Rogo Technologies，AI 工具或将颠覆初级银行家角色 Soul App开源播客语音合成模型，可流畅自然多轮语音对话，支持川粤豫等多方言与副语言风格 OpenAI GPT-5震撼升级心理健康响应，不当回答骤降65% 微软与OpenAI重塑联盟：2500亿美元Azure订单背后，OpenAI获“云自由”！ OpenAI终于快要上市了，也直面了这23个灵魂拷问从反馈中学习：强化学习如何提升百晓生问答精准度

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney 开源 Meta 智能微软 AI新词用户 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 Agent AI for Science 芯片苹果腾讯 Claude Stable Diffusion 蛋白质开发者生成式神经网络 xAI 机器学习 3D RAG 人形机器人研究 AI视频大语言模型生成具身智能 Sora 工具 GPU 百度华为计算字节跳动 AI设计 AGI 大型语言模型搜索视频生成场景深度学习架构 DeepMind 生成式AI 编程视觉 Transformer 预测 AI模型伟达特斯拉 MCP

强化学习

从反馈中学习：强化学习如何提升百晓生问答精准度

NeurIPS 2025｜火山引擎多媒体实验室联合南开大学推出TempSamp-R1强化学习新框架，视频时序理解大模型SOTA！

RLPT：用强化学习“重读”预训练数据，让大模型学会思考

从探索到验证：Parallel-R1 如何塑造大模型的"思考"哲学

天塌！OpenAI两位o系列大佬Jason Wei和Hyung Won Chung被曝离职，疑似发推回应：要超越老师，须强化自己

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科， 不用思维链也能做题

小米大模型团队在音频推理领域取得重大突破，登顶国际评测榜

小米大模型团队登顶音频推理 MMAU 榜，受到DeepSeek-R1启发

万字梳理：揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025

OpenAI：强化学习确实可显著提高LLM性能，DeepSeek R1、Kimi k1.5发现o1的秘密

OpenAI联创Schulman闪电跳槽！从Anthropic转投Murati新公司

讲座预约丨四位专家大论道 ：大模型时代的强化学习丨GAIR live

对话南洋理工大学安波教授：如何让大语言模型适应动态环境？丨IJAIRR

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

讲座预约丨四位专家大论道：大模型时代的强化学习丨GAIR live