FlowPrefill：通过解耦抢占与调度粒度缓解LLM服务队头阻塞

发布时间：2026-02-25 12:02

随着大语言模型（LLM）服务需求的增长，服务系统需要处理大量具有不同服务水平目标（SLO）的并发请求。这在计算密集的预填充阶段加剧了队头阻塞问题，即长时运行的请求会独占资源并延迟高优先级请求，导致广泛的首个令牌时间（TTFT）SLO违规。分块预填充虽能实现可中断性，但引入了响应性与吞吐量之间的固有权衡：减小块大小可改善响应延迟但降低计算效率，而增大块大小可最大化吞吐量却会加剧阻塞。这需要一个自适应的抢占机制，但动态平衡执行粒度与调度开销仍是一个关键挑战。

本文提出的FlowPrefill是一个优化TTFT与良好吞吐的服务系统，它通过解耦抢占粒度与调度频率来解决这一冲突。为实现自适应预填充调度，FlowPrefill引入了两项关键创新：一是算子级抢占，它利用算子边界实现细粒度执行中断，避免了固定小分块带来的效率损失；二是事件驱动调度，仅在请求到达或完成事件时触发调度决策，从而在最小化控制平面开销的同时支持高效的抢占响应性。

在真实生产轨迹上的评估表明，与现有先进系统相比，FlowPrefill在满足异构SLO的同时，能显著提升最大良好吞吐量。该系统为解决LLM服务中预填充阶段的资源调度与阻塞问题提供了新的思路。

返回快讯列表