在多轮次、代理型大语言模型推理中,性能瓶颈正日益从计算转向KV-Cache的存储I/O。在普遍采用的解耦架构中,从外部存储加载海量的KV-Cache会导致一个根本性的不平衡:预填充引擎上的存储网卡带宽饱和,而解码引擎上的存储网卡却处于空闲状态。这种不对称性严重制约了整体系统吞吐量。
为此,研究团队提出了DualPath推理系统,旨在通过引入双路径KV-Cache加载机制来打破这一瓶颈。除了传统的存储到预填充路径,DualPath创新性地启用了一条存储到解码路径。在这条新路径中,KV-Cache被直接加载到解码引擎中,然后通过计算网络上的RDMA高效传输至预填充引擎。
DualPath结合了这条优化的数据路径与一个全局调度器。该优化路径本质上避免了网络拥塞,并且不会干扰对延迟敏感的模型执行通信。全局调度器则负责动态平衡预填充引擎与解码引擎之间的负载。
评估结果表明,DualPath在应对生产级代理型工作负载时,能够显著提升离线推理的吞吐量。同时,它也能在不违反服务等级协议的前提下,有效提升在线服务的吞吐量。该系统为解决当前LLM推理架构中的关键性能限制提供了一种新思路。


