豆包大模型团队开源RLHF框架，训练吞吐量最高提升20倍

作者：新闻助手 2024-11-01 02:44

强化学习（RL）对大模型复杂推理能力提升有关键作用，但其复杂的计算流程对训练和部署也带来了巨大挑战。近日，字节跳动豆包大模型团队与香港大学联合提出 HybridFlow。这是一个灵活高效的 RL/RLHF 框架，可显著提升训练吞吐量，降低开发和维护复杂度。

强化学习（RL）对大模型复杂推理能力提升有关键作用，但其复杂的计算流程对训练和部署也带来了巨大挑战。近日，字节跳动豆包大模型团队与香港大学联合提出 HybridFlow。这是一个灵活高效的 RL/RLHF 框架，可显著提升训练吞吐量，降低开发和维护复杂度。实验结果表明，HybridFlow 在各种模型规模和 RL 算法下，训练吞吐量相比其他框架提升了 1.5 倍至 20 倍。

在大模型后训练（Post-Training）阶段引入 RL 方法，已成为提升模型质量和对齐人类偏好的重要手段。然而，随着模型规模的不断扩大，RL 算法在大模型训练中面临着灵活性和性能的双重挑战。传统的 RL/RLHF 系统在灵活性和效率方面存在不足，难以适应不断涌现的新算法需求，无法充分发挥大模型潜力。

据豆包大模型团队介绍，HybridFlow 采用混合编程模型，将单控制器的灵活性与多控制器的高效性相结合，解耦了控制流和计算流。基于 Ray 的分布式编程、动态计算图、异构调度能力，通过封装单模型的分布式计算、统一模型间的数据切分，以及支持异步 RL 控制流，HybridFlow 能够高效地实现和执行各种 RL 算法，复用计算模块和支持不同的模型部署方式，大大提升了系统的灵活性和开发效率。

豆包大模型团队开源RLHF框架，训练吞吐量最高提升20倍

实验结果显示，无论 PPO 、ReMax 还是 Safe-RLHF 算法，HybridFlow 在所有模型规模下平均训练吞吐量均大幅领先于其他框架，提升幅度在 1.5 倍至 20 倍之间。随着 GPU 集群规模扩大，HybridFlow 吞吐量也获得良好扩展。这得益于其灵活的模型部署，充分利用硬件资源，实现高效并行计算。同时，HybridFlow 能够支持多种分布式并行框架（Megatron-LM 、FSDP 、vLLM ），满足不同模型规模的计算需求。

随着 o1 模型诞生，大模型 Reasoning 能力和 RL 愈发受到业界关注。豆包大模型团队表示，将继续围绕相关场景进行探索和实验。目前，HybridFlow 研究论文已入选学术顶会 EuroSys 2025，代码也已对外开源。

HybridFlow开源链接：https://github.com/volcengine/veRL

提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架

字节跳动豆包大模型团队与香港大学公开联合研究成果 —— HybridFlow。官方宣称，HybridFlow（开源项目名：veRL）是一个灵活且高效的大模型 RL 训练框架，兼容多种训练和推理框架，支持灵活的模型部署和多种 RL 算法实现。该框架采用混合编程模型，融合单控制器（Single-Controller）的灵活性和多控制器（Multi-Controller）的高效性，可更好实现和执行多种 RL 算法，显著提升训练吞吐量，降低开发和维护复杂度。

11/3/2024 3:24:59 PM

沛霖（实习）

学术打假！清华上交大研究颠覆认知：强化学习竟是大模型推理的"绊脚石"

【研究颠覆】清华大学与上海交通大学联合发表的最新论文，对业界普遍认为"纯强化学习（RL）能提升大模型推理能力"的观点提出了挑战性反驳。研究发现，引入强化学习的模型在某些任务中的表现，反而逊色于未使用强化学习的原始模型。【实验验证】研究团队在数学、编码和视觉推理三大领域进行了系统性实验:数学任务:在GSM8K、MATH500等基准测试中，RL模型在低采样次数（k值）下准确率提升，但在高k值时问题覆盖率显著下降编码任务:RLVR训练模型在HumanEval 等测试中单样本pass@1分数提高，但在高采样数（k=128）时覆盖率下降视觉推理:Qwen-2.5-VL-7B模型在多模态任务中表现一致，RL未改变其基本问题解决策略【学界争议】研究结果引发学界激烈讨论:支持方认为RL提高了采样效率但限制了推理能力开发反对方指出可能是奖励结构缺陷而非RL本身问题中立观点建议结合蒸馏等其他方法增强推理【本质思考】研究团队提出关键区分:能力:模型解决问题的潜质与逻辑链条效率:在给定能力范围内得出答案的速度与稳定性强化学习更像是"能力调控器"而非"能力创造器"，它能让模型更擅长做已知的事，但难以开发新的推理路径。

4/23/2025 2:00:43 PM

AI在线

阿里发布 QwenLong-L1 超长文本杀器！已开源、支持 120k 长上下文、具备“翻书回溯”能力

业界普遍认为AI上下文越长越好，但这存在一个核心矛盾：模型能“吞下”海量信息，却难以真正“消化”。面对长文，它们会忘记要点、无法深入推理，这已成为一大瓶颈。例如，AI 能记住第1页的内容，同时理解第100页的观点，并将两者联系起来进行推理吗？

6/3/2025 12:00:09 AM

豆包大模型团队开源RLHF框架，训练吞吐量最高提升20倍

相关资讯

提升 1.5~20 倍吞吐量，字节豆包大模型团队与香港大学发布并开源全新 RLHF 框架

学术打假！清华上交大研究颠覆认知：强化学习竟是大模型推理的"绊脚石"

阿里发布 QwenLong-L1 超长文本杀器！已开源、支持 120k 长上下文、具备“翻书回溯”能力