DualPath：突破代理型LLM推理中的存储带宽瓶颈

发布时间：2026-02-26 19:02

在多轮次、代理型大语言模型推理中，性能瓶颈正日益从计算转向KV-Cache的存储I/O。在普遍采用的解耦架构中，从外部存储加载海量的KV-Cache会导致一个根本性的不平衡：预填充引擎上的存储网卡带宽饱和，而解码引擎上的存储网卡却处于空闲状态。这种不对称性严重制约了整体系统吞吐量。

为此，研究团队提出了DualPath推理系统，旨在通过引入双路径KV-Cache加载机制来打破这一瓶颈。除了传统的存储到预填充路径，DualPath创新性地启用了一条存储到解码路径。在这条新路径中，KV-Cache被直接加载到解码引擎中，然后通过计算网络上的RDMA高效传输至预填充引擎。

DualPath结合了这条优化的数据路径与一个全局调度器。该优化路径本质上避免了网络拥塞，并且不会干扰对延迟敏感的模型执行通信。全局调度器则负责动态平衡预填充引擎与解码引擎之间的负载。

评估结果表明，DualPath在应对生产级代理型工作负载时，能够显著提升离线推理的吞吐量。同时，它也能在不违反服务等级协议的前提下，有效提升在线服务的吞吐量。该系统为解决当前LLM推理架构中的关键性能限制提供了一种新思路。