强化学习
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。 o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构化程度高,奖励函数/奖励模型比较好设计。 那么,想提升大模型在其他学科领域的能力该怎么办?
4/3/2025 9:23:08 AM
量子位
小米大模型团队在音频推理领域取得重大突破,登顶国际评测榜
近日,小米大模型团队在音频推理领域的研究中取得了突破性进展,成功应用强化学习算法于多模态音频理解任务,准确率达到了64.5%,这一成就使其在国际权威的 MMAU 音频理解评测中夺得了第一名。 这一成果的背后,离不开团队对 DeepSeek-R1的启发。 MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集是衡量音频推理能力的重要标准,通过对包含语音、环境声和音乐的多种音频样本进行分析,测试模型在复杂推理任务中的表现。
3/17/2025 2:13:00 PM
AI在线
小米大模型团队登顶音频推理 MMAU 榜,受到DeepSeek-R1启发
小米技术官方微博宣布,小米大模型团队在音频推理领域取得了显著进展。 他们在受到 DeepSeek-R1的启发后,率先将强化学习算法应用于多模态音频理解任务。 团队在短短一周内便以64.5% 的 SOTA(State Of The Art)准确率,登顶国际权威的 MMAU 音频理解评测榜,并同步将相关技术开源。
3/17/2025 11:43:00 AM
AI在线
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
在 DeepSeek 能够破圈而出的一众原因中,完全摒弃传统的监督微调(SFT)、转而采用大规模强化学习(RL)的创新之处是关键所在,这使得模型推理能力在质上取得显著突破,更证明了强化学习在提升大语言模型推理能力方面的巨大潜力。 近几年,学界和业界关于 RL 和 LLM 也涌现出了颇多具备开创性意义的研究成果。 在 AI 智能体推理与决策研讨会(AIR 2025)上,来自伦敦大学学院、加州大学伯克利分校、普林斯顿大学、华盛顿大学、卡内基梅隆大学、Meta、华为等多位学术界和工业界的研究人员围绕强化学习、推理决策、AI 智能体展开讨论,回答了诸多问题,例如:AI 系统如何模拟类人推理和决策过程?
3/3/2025 8:26:00 PM
王悦
OpenAI:强化学习确实可显著提高LLM性能,DeepSeek R1、Kimi k1.5发现o1的秘密
最近,OpenAI 发了一篇论文,宣称 o3 模型在 2024 IOI 上达到了金牌水平,并且在 CodeForces 上获得了与精英级人类相当的得分。 他们是怎么做到的呢? OpenAI 在论文开篇就用一句话进行了总结:「将强化学习应用于大型语言模型(LLM)可显著提高在复杂编程和推理任务上的性能。
2/19/2025 7:05:00 PM
机器之心
OpenAI联创Schulman闪电跳槽!从Anthropic转投Murati新公司
跑去隔壁Anthropic的OpenAI联创John Schulman,又又又跳槽了。 《财富》爆料,Schulman新的去向,是加入原OpenAI首席技术官Mira Murati的新创业公司。 此时距离他转投Anthropic,仅仅不到半年。
2/7/2025 10:13:16 AM
量子位
讲座预约丨四位专家大论道 :大模型时代的强化学习丨GAIR live
站在科技创新的浪潮之巅,我们见证了人工智能领域的巨大飞跃,尤其是大模型技术与强化学习中的结合和突破性应用,正在引领我们进入一个全新的智能时代。 在过去几年中,强化学习作为人工智能的一个重要分支,已经从理论研究的深奥殿堂走向了实践应用的广阔天地,从实验室的封闭空间走向了我们日常生活的各个角落。 在自动驾驶、游戏AI、机器人控制等领域,强化学习的身影无处不在,它们正逐步成为我们生活中不可分割的一部分。
8/23/2024 11:43:00 AM
岑大师
对话南洋理工大学安波教授:如何让大语言模型适应动态环境?丨IJAIRR
对人类越是简单的问题,大语言模型反而越难以做好? 尽管现在的大模型已经有能力冲击数学竞赛级别的题目,但在像“9.11和9.9谁大”这样的简单问题上仍然会翻船。 而从推特上网友对问题的讨论中猜测,出现这种错误的原因可能是由于大模型以token的方式来理解文字,当9.11被拆成“9”、“.”和“11”三部分时,11确实比9大。
7/18/2024 10:09:00 AM
岑大师
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
开源
用户
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
具身智能
驾驶
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉