AIGC宇宙 AIGC宇宙

Arrow

聊聊大模型推理系统之 Arrow:自适应调度实现请求吞吐提升7.78倍背后的三大创新

在大模型(LLM)推理服务中,如何在输入/输出长度剧烈波动的现实场景下,依然保持高吞吐与低延迟? 传统静态资源分配策略往往导致计算资源严重浪费。 近期,来自中国科学技术大学、北航与京东的研究团队提出了一项名为 Arrow 的自适应调度机制,通过无状态实例与弹性实例池,实现了高达 7.78 倍 的请求服务速率提升。
8/29/2025 1:15:00 AM
机智流科技
  • 1