RL

最新 AGI 暴论：强化学习的「GPT-3 时刻」实现，还需要 1 万年？

最近，国外一家 AI 初创公司 Mechanize 的三位创始人联合撰文，提出一个大胆的判断：RL 或许要迎来属于它的 “GPT-3 时刻”，但还需要拥有相当于数千至上万年“模型处理任务所用时间”的训练。在他们看来，当前的 RL 模型还存在明显短板，比如泛化能力差、难以适应新任务等，这种局面其实很像 GPT-3 出现之前的语言模型——能解决特定问题，但难以迁移和扩展。为了解决这个问题，他们提出了一种新的训练范式，叫作“复制训练”（Replication Training）：让模型在虚拟环境中模拟真实软件的操作过程，比如使用浏览器、编写代码、处理命令行任务等等。

7/14/2025 4:36:00 PM

郑佳美

Sebastian Raschka：关于DeepSeek R1和推理模型，我有几点看法

著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。这一次，他将立足于 DeepSeek 技术报告，介绍用于构建推理模型的四种主要方法，也就是如何通过推理能力来增强 LLM。 Sebastian Raschka 表示：「我希望这能提供有价值的见解，并帮助你了解围绕这一主题的快速演变的文献和话题炒作。

2/9/2025 2:42:00 PM

机器之心

提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架

字节跳动豆包大模型团队与香港大学公开联合研究成果 —— HybridFlow。官方宣称，HybridFlow（开源项目名：veRL）是一个灵活且高效的大模型 RL 训练框架，兼容多种训练和推理框架，支持灵活的模型部署和多种 RL 算法实现。该框架采用混合编程模型，融合单控制器（Single-Controller）的灵活性和多控制器（Multi-Controller）的高效性，可更好实现和执行多种 RL 算法，显著提升训练吞吐量，降低开发和维护复杂度。

11/3/2024 3:24:59 PM

沛霖（实习）

豆包大模型团队开源RLHF框架，训练吞吐量最高提升20倍

强化学习（RL）对大模型复杂推理能力提升有关键作用，但其复杂的计算流程对训练和部署也带来了巨大挑战。近日，字节跳动豆包大模型团队与香港大学联合提出 HybridFlow。这是一个灵活高效的 RL/RLHF 框架，可显著提升训练吞吐量，降低开发和维护复杂度。

11/1/2024 2:44:00 PM

新闻助手

资讯热榜

马斯克 xAI 在孟菲斯开建全球最大污水处理厂，年节约饮用水达 190 亿升印度创新试点：AI 聊天机器人助力电子商务购物新方式两部门联合发布《政务领域人工智能大模型部署应用指引》大力推动AI技术应用 OpenAI Sora 引爆 App Store“山寨潮”:30万次下载!苹果审核机制遭质疑软银贷款50亿美元助力AI投资，孙正义押注未来科技！ OpenAI新研究称GPT-5为迄今“政治偏见最少”的AI模型前DeepMind大神创业一年估值飙至80亿美元：Reflection AI要做美国版DeepSeek 超越ZIP的无损压缩来了！华盛顿大学让大模型成为无损文本压缩器

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人数据大模型 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练论文 LLM 代码算法芯片 Stable Diffusion 苹果腾讯 AI for Science Claude Agent 蛋白质开发者生成式神经网络 xAI 机器学习 3D 研究人形机器人生成 AI视频百度工具具身智能 Sora RAG 大语言模型 GPU 华为计算 AI设计字节跳动搜索大型语言模型 AGI 场景深度学习视频生成架构 DeepMind 预测视觉伟达 Transformer 编程 AI模型神器推荐亚马逊 MCP