AIR2025
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
在 DeepSeek 能够破圈而出的一众原因中,完全摒弃传统的监督微调(SFT)、转而采用大规模强化学习(RL)的创新之处是关键所在,这使得模型推理能力在质上取得显著突破,更证明了强化学习在提升大语言模型推理能力方面的巨大潜力。 近几年,学界和业界关于 RL 和 LLM 也涌现出了颇多具备开创性意义的研究成果。 在 AI 智能体推理与决策研讨会(AIR 2025)上,来自伦敦大学学院、加州大学伯克利分校、普林斯顿大学、华盛顿大学、卡内基梅隆大学、Meta、华为等多位学术界和工业界的研究人员围绕强化学习、推理决策、AI 智能体展开讨论,回答了诸多问题,例如:AI 系统如何模拟类人推理和决策过程?
3/3/2025 8:26:00 PM
王悦
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
用户
开源
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
人形机器人
预测
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
驾驶
具身智能
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
训练
干货合集
应用
大型语言模型
科技
亚马逊
智能体
DeepMind
特斯拉