GRPO

大模型开始打王者荣耀了

大语言模型可以打王者荣耀了！图片腾讯最新提出的Think-In-Games (TiG) 框架，直接把大模型丢进王者荣耀里训练。它不仅能实时理解盘面信息（英雄、发育、兵线、防御塔、资源、视野等），还能打出像人类玩家一样的操作。

9/2/2025 10:03:34 AM

OpenAI没做到，DeepSeek搞定了！开源引爆推理革命

DeepSeek-R1引爆了LLM推理革命。至今，过去一百多天了，引发了持续复制DeepSeek-R1的热潮。 DeepSeek-R1的秘籍在于强化学习微调算法：群体相对策略优化（Group Relative Policy Optimization，GRPO）。

5/26/2025 4:00:00 AM

新智元

基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战

群组相对策略优化（Group Relative Policy Optimization，GRPO）已被证明是一种有效的算法，可用于训练大语言模型（LLMs），使其具备推理能力并在基准测试中持续提升性能表现。 DeepSeek-R1 展示了如何通过监督式微调（Supervised Fine-Tuning）与 GRPO 技术的结合，引导模型达到与 OpenAI 的 o1 等顶尖模型相竞争的水平。为了进一步探索其实践应用，我们尝试将这些技术应用于现实场景中。

4/7/2025 2:25:00 AM

机器学习|从0开发大模型之DeepSeek的GRPO

DeepSeek-R1的发布为国产大模型争光了（太强了），不过 GRPO 算法源自 DeepSeekMath 7B 模型，该模型在 MATH 基准测试中取得了优异成绩，论文发表于2024年2月份：，以下是该论文的摘要原文：复制翻译如下：复制对比数据1、什么是GRPOGRPO 是一种在线学习算法，核心思想是通过组内相对奖励来估计基线，从而避免使用额外的价值函数模型。通过在训练期间使用受训模型自身生成的数据来迭代改进，GRPO 旨在最大化生成补全的优势，同时确保模型保持接近参考策略，下图是论文中的算法流程图：GRPOGRPO 是 PPO (Proximal Policy Optimization，近端策略优化，是一种强化学习算法，由OpenAI于2017年提出，旨在解决策略梯度方法中的训练不稳定问题) 的变体，主要区别是：GRPO 省略 value function modelGRPO 奖励计算，改成了一个 q 生成多个 r，然后 reward 打分GRPO算法流程：采样一组输出并计算每个输出的奖励对组内奖励进行归一化处理使用归一化后的奖励计算优势函数通过最大化目标函数更新策略模型迭代训练，逐步优化策略模型论文中的伪代码2、奖励设计huggingface 库提供 GRPOTrainer 可以直接使用 GRPO 训练，参数包括定义奖励模型和函数。 2.1 奖励模型复制这里的 reward_funcs 参数可以传入奖励模型。

4/3/2025 3:40:41 PM

周末程序猿

GRPO在《时空谜题》中击败o1、o3-mini和R1

近日，海外大模型产品平台 OpenPipe 上发布了一项研究，阐述其如何通过 GRPO 在重度推理游戏《时空谜题》中超越R1、o1、o3-mini 等模型。研究作者分别为来自 Ender Research 的强化学习研究员 Brad Hilton 和 OpenPipe 的创始人 Kyle Corbitt。他们的研究表示，他们不仅将模型与 Sonnet 3.7 的差距缩小至个位百分比，同时实现超过100倍的推理成本优化。

3/27/2025 4:19:00 PM

洪雨欣

VLM-R1引领视觉语言模型新纪元多模态AI迎来新突破

近日，VLM-R1项目的成功推出为这一领域带来了新的曙光。该项目是 DeepSeek 团队的 R1方法在视觉语言模型中的成功迁移，意味着 AI 对视觉内容的理解将进入一个全新的阶段。 VLM-R1的灵感源自于去年 DeepSeek 开源的 R1方法，该方法利用了 GRPO（Generative Reward Processing Optimization）强化学习技术，在纯文本处理上取得了优异的表现。

2/20/2025 4:44:00 PM

AI在线

DeepSeek 背后的技术：GRPO，基于群组采样的高效大语言模型强化学习训练方法详解

强化学习（Reinforcement Learning, RL）已成为提升大型语言模型（Large Language Models, LLMs）推理能力的重要技术手段，特别是在需要复杂推理的任务中。 DeepSeek 团队在 DeepSeek-Math [2] 和 DeepSeek-R1 [3] 模型中的突破性成果，充分展示了强化学习在增强语言模型数学推理和问题解决能力方面的巨大潜力。这些成果的取得源于一种创新性的强化学习方法——群组相对策略优化（Group Relative Policy Optimization, GRPO）。

2/17/2025 10:40:20 AM

佚名

DeepSeek 用的 GRPO 占用大量内存？有人给出了些破解方法

自 DeepSeek-R1 发布以来，群组相对策略优化（GRPO）因其有效性和易于训练而成为大型语言模型强化学习的热门话题。 R1 论文展示了如何使用 GRPO 从遵循 LLM（DeepSeek-v3）的基本指令转变为推理模型（DeepSeek-R1）。 GRPO 是一种在线学习算法（online learning algorithm），它通过使用训练过程中由训练模型自身生成的数据来进行迭代改进。

2/7/2025 1:45:58 PM

机器之心

资讯热榜

OpenAI 宣布印度用户可享受一年免费 ChatGPT Go 服务 OpenAI 披露：每周有超过一百万人与 ChatGPT 倾诉自杀倾向中小企业AI落地的算力“最优解”：一台插电即用的Mac mini DeepSeek-OCR：OCR 的新突破红杉资本注资Rogo Technologies，AI 工具或将颠覆初级银行家角色大模型在具身推理上「翻车」了？4496 道题全面揭示短板 OpenAI GPT-5震撼升级心理健康响应，不当回答骤降65% OpenAI终于快要上市了，也直面了这23个灵魂拷问

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人大模型数据 Midjourney 开源 Meta 智能微软 AI新词用户 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 Agent AI for Science 芯片苹果腾讯 Claude Stable Diffusion 蛋白质开发者生成式神经网络 xAI 机器学习 3D RAG 人形机器人研究 AI视频大语言模型生成具身智能 Sora 工具 GPU 百度华为计算字节跳动 AI设计 AGI 大型语言模型搜索视频生成场景深度学习架构 DeepMind 生成式AI 编程视觉 Transformer 预测 AI模型伟达特斯拉 MCP