AIGC宇宙 AIGC宇宙

聊聊大模型推理系统之 Arrow:自适应调度实现请求吞吐提升7.78倍背后的三大创新

在大模型(LLM)推理服务中,如何在输入/输出长度剧烈波动的现实场景下,依然保持高吞吐与低延迟? 传统静态资源分配策略往往导致计算资源严重浪费。 近期,来自中国科学技术大学、北航与京东的研究团队提出了一项名为 Arrow 的自适应调度机制,通过无状态实例与弹性实例池,实现了高达 7.78 倍 的请求服务速率提升。

在大模型(LLM)推理服务中,如何在输入/输出长度剧烈波动的现实场景下,依然保持高吞吐与低延迟?传统静态资源分配策略往往导致计算资源严重浪费。近期,来自中国科学技术大学、北航与京东的研究团队提出了一项名为 Arrow 的自适应调度机制,通过无状态实例与弹性实例池,实现了高达 7.78 倍 的请求服务速率提升。这项研究不仅解决了Prefill-Decode 拆分架构(PD 拆分)的核心瓶颈,更为大模型服务系统的弹性化设计提供了新范式。

论文链接见文末论文链接见文末

核心看点

Arrow 的核心突破在于其“双自适应”调度能力——既能动态调整请求的分发路径,也能实时重配计算实例的角色。研究团队发现,现实中的 LLM 请求在输入和输出长度上存在巨大波动,导致传统固定比例的 Prefill(填充)与 Decode(解码)节点配置极易失衡。为此,Arrow 创新性地将计算实例设计为无状态(stateless),使其可随时在 Prefill 和 Decode 任务间切换,彻底消除了传统“实例翻转”带来的分钟级延迟。通过实时监控Time-to-First-Token(TTFT,首字延迟)和Time-per-Output-Token(TPOT,字间延迟)等关键指标,Arrow 实现了 SLO(服务等级目标)感知的调度决策,在多种真实工作负载下,请求吞吐率最高提升了 5.62 倍(对比 PD 共置系统)和 7.78 倍(对比 PD 拆分系统)。

研究背景

当前,大模型推理服务普遍采用Transformer架构,其推理过程分为两个阶段:Prefill 阶段负责处理用户输入并生成首个输出 Token,计算复杂度与输入长度的平方成正比;Decode 阶段则以自回归方式逐个生成后续 Token,计算复杂度与批处理中的总 Token 数线性相关。为避免两阶段的相互干扰,学术界提出了Prefill-Decode 拆分架构,将两种计算任务分配给专用的实例。然而,这种架构引入了一个新问题:如何确定 Prefill 与 Decode 实例的最优配比?

传统方法依赖离线分析或仿真,但在输入/输出长度剧烈波动的真实场景中,静态配比无法适应动态负载,导致资源利用率低下。DistServe、Splitwise 等系统虽能动态“翻转”实例角色,但翻转过程需重启实例,耗时长达数分钟,无法应对突发流量。因此,如何实现低延迟、高灵活性的实例资源动态调度,成为提升 LLM 服务系统整体吞吐(goodput)的关键挑战。

图片图片

核心贡献

图片图片

方法创新:无状态实例与弹性实例池

Arrow 的首要创新是提出了无状态实例(stateless instance)设计。在传统系统中,一个实例被固化为 Prefill 或 Decode 角色。而在 Arrow 中,每个实例均可处理任意类型的任务。当一个请求的 Prefill 阶段完成后,该请求及其KV Cache(键值缓存,存储中间计算结果以避免重复计算)可被传输至任意其他实例进行 Decode。这使得实例的角色切换不再是“物理重启”,而是“逻辑重分配”,实现了零等待时间的资源重配。

为了高效管理这些无状态实例,Arrow 设计了弹性实例池(elastic instance pool),包含四个逻辑池:Prefill 池、Decode 池、P→D 池(正从 Prefill 转向 Decode)和 D→P 池(正从 Decode 转向 Prefill)。全局调度器通过移动实例在这些池间的归属,即可完成角色切换,整个过程无任何中断。

理论突破:基于 SLO 的实时调度洞察

图片图片

Arrow 的调度决策并非基于间接的请求长度或利用率,而是直接与 SLO 挂钩。研究团队通过分析,得出了几项关键洞察:

  1. TTFT 具有强可预测性:由于 Prefill 时间与输入长度的平方成正比,系统可以精确预测新请求的 TTFT。Arrow 利用此特性,在请求进入队列前就判断其是否可能违反 SLO,从而提前触发实例重配。
  2. TPOT 具有弱可预测性但非单调:Decode 阶段的延迟受多种因素影响,难以预测。但 TPOT 是所有字间延迟的平均值,具有“非单调性”,即短暂的延迟高峰不一定会导致 SLO 违规。因此,Arrow 采取“事后监测”策略,当观察到 TPOT 持续超标时,再调度更多实例加入 Decode。

实证成果:性能显著超越现有系统

图片图片

研究团队基于 vLLM 框架实现了 Arrow,并在 Llama-3.1-8B 模型上,使用 Azure Code、BurstGPT 等四种真实生产流量进行测试。在 90% SLO 达标率的约束下,Arrow 的性能表现如下:

图片图片

  • 在高度突发的 Azure Code 负载下,Arrow 的可持续请求速率达到50 req/s,是 vLLM(PD 共置)的5.62 倍,是 vLLM-disaggregated(PD 拆分)的7.78 倍
  • 在长上下文场景(Mooncake Conversation)下,Arrow 通过将空闲的 Prefill 实例快速调度至 Decode 任务,释放了宝贵的内存资源,请求速率提升了3.73 倍(对比 vLLM)。
  • 消融实验表明,Arrow 的“SLO 感知”调度策略比仅采用“最小负载”策略的基线高出1.67 倍的请求速率,证明了其自适应机制的有效性。
  • 在扩展性测试中,随着 GPU 数量从 2 个增加到 8 个,Arrow 的 SLO 达标率实现了近似线性增长,展现了强大的横向扩展能力。

行业意义

Arrow 的研究成果为大模型即服务(LMaaS)领域指明了一条高效、弹性的技术路线。它解决了 PD 拆分架构从“理论优势”到“实践落地”的最后一公里问题,即动态资源调度的延迟与灵活性。其设计理念与云原生微服务的弹性思想高度契合,有望成为未来大模型推理平台的标准组件。

该工作与我国推动算力基础设施高效利用的政策导向相符,通过提升单 GPU 的请求处理能力,可显著降低大模型服务的运营成本和能耗,助力实现“双碳”目标。未来,Arrow 的架构有望推动自动驾驶智能客服等对延迟敏感的产业级应用,实现更快速、更稳定的 AI 交互体验。这一创新,正在悄然推动大模型服务基础设施的深层变革。

论文链接:Arrow: Adaptive Scheduling Mechanisms for Disaggregated LLM Inference Architecture[1]

参考资料

[1] Arrow: Adaptive Scheduling Mechanisms for Disaggregated LLM Inference Architecture: https://arxiv.org/abs/2505.11916

相关资讯

小红书翻译紧急上线,见证历史:大模型翻译首次上线C端应用!AI竟自称是GPT-4?网友变身“测试狂魔”,疯狂套话,效果拉满了!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)程序员键盘敲冒烟,小红书翻译功能这不是就来了吗! 之前大家各种吐槽美国人用的翻译机器不准确,导致大家交流起来“人机感很重”,一些美网友还需要额外用ChatGPT才能实现无缝交流。 这翻译功能一出来,语言障碍什么的都不存在了。
1/20/2025 1:52:45 PM
伊风

几个开发大模型应用常用的 Python 库

一、应用层开发1. FastAPIFastAPI是构建API的优选。 顾名思义,它快速、简单,并能与Pydantic完美集成,实现无缝数据验证。
1/22/2025 10:33:44 AM
zone7

Meta杨立昆引燃全民大讨论:美政府有些人被洗脑了,监管让开源变得像非法一样!Meta也犯过错!大模型不如猫,保质期就3年!

编辑 | 言征出品 | 51CTO技术栈(微信号:blog51cto)1月23日,在冬季达沃斯论坛的“辩论技术”环节,Meta公司副总裁兼首席人工智能科学家Yann Lecun、麻省理工学院媒体实验室主任 Dava Newman、Axios首席技术记者Ina Turpen Fried(主持人)就未来十年前沿科技进行了时长47分钟的“全民”大讨论,话题涵盖了LLM、智能体、消费机器人、脑机接口、跨物种、太空探索,也讨论了非常让Meta敏感的“技术作恶”、审查监管、开闭源之争。 观众们更是抓住机会让两位嘉宾抖出了很多猛料。 Lecun表示,现在的大模型并没有达到预期效果,在很多方面都存在不足:“我认为当前 LLM范式的保质期相当短,可能只有3到5年。
1/26/2025 11:35:05 AM
言征
  • 1