随着大语言模型(LLM)服务需求的增长,服务系统需要处理大量具有不同服务水平目标(SLO)的并发请求。这在计算密集的预填充阶段加剧了队头阻塞问题,即长时运行的请求会独占资源并延迟高优先级请求,导致广泛的首个令牌时间(TTFT)SLO违规。分块预填充虽能实现可中断性,但引入了响应性与吞吐量之间的固有权衡:减小块大小可改善响应延迟但降低计算效率,而增大块大小可最大化吞吐量却会加剧阻塞。这需要一个自适应的抢占机制,但动态平衡执行粒度与调度开销仍是一个关键挑战。
本文提出的FlowPrefill是一个优化TTFT与良好吞吐的服务系统,它通过解耦抢占粒度与调度频率来解决这一冲突。为实现自适应预填充调度,FlowPrefill引入了两项关键创新:一是算子级抢占,它利用算子边界实现细粒度执行中断,避免了固定小分块带来的效率损失;二是事件驱动调度,仅在请求到达或完成事件时触发调度决策,从而在最小化控制平面开销的同时支持高效的抢占响应性。
在真实生产轨迹上的评估表明,与现有先进系统相比,FlowPrefill在满足异构SLO的同时,能显著提升最大良好吞吐量。该系统为解决LLM服务中预填充阶段的资源调度与阻塞问题提供了新的思路。


