2026-04-15 16:59:37 中华网
由腾讯云TACO团队联合开源社区共同开发的分布式KV存储与多级缓存管理系统 FlexKV,正式完成NVIDIA Dynamo、vLLM、TensorRT-LLM三大全球主流大语言模型 (LLM) 推理框架官方主分支合入,成为低成本接入三大框架的KV Cache Offloading方案。相关代码分别于2026年3月3日、3月12日、3月28日正式合并,全球开发者无需修改代码、无需额外打补丁,仅通过基础配置即可一键启用该核心优化能力。

随着LLM产业化落地深入,长上下文、多轮对话、高并发推理已成为行业主流场景,而KV Cache带来的GPU显存瓶颈,成为制约推理效率与成本控制的核心行业痛点。行业实测显示,高并发场景下GPU显存70%以上会被KV Cache占用,不仅限制单卡并发上限与上下文长度,还会因缓存丢弃导致的重复计算推高推理算力成本。根据英伟达测算,未做 KV Cache 卸载优化的推理集群,单位Token的生成成本会因重复计算提升 2-3 倍,高并发峰值期的单位Token成本甚至提升3.5倍。
以一家中等规模企业部署AI智能客服LLM推理集群为例,该系统需要提供7×24 小时多轮对话服务,业务高并发时段集中在电商大促、售后咨询峰值。因KV Cache 显存瓶颈和缓存驱逐导致的额外成本,占单月总运营成本的78%。而一家典型的大型互联网企业,缓存驱逐引发的重复计算算力成本,超过硬件采购成本的5%,成为推理业务规模化落地的核心成本包袱。
腾讯云FlexKV专为超大规模 LLM 推理场景设计,可挂载PB级别的远端存储并支持跨节点共享,突破规模化推理的显存瓶颈。其首创的分布式RadixTree前缀索引机制,解决了传统方案中心化索引的单点性能与故障风险,实现了跨节点KV缓存的高效共享;异步流水线设计可让缓存读写操作与 GPU 计算完全重叠,彻底隐藏数据搬运延迟。实测数据显示,启用FlexKV 后,LLM推理首Token 延迟 (TTFT) 降低约60%,单Token延迟 (TPOT)降低13%,单集群每分钟请求处理量 (QPM) 提升 16%,实现了用户体验与集群吞吐的双重优化。

图:FlexKV完整工作流
多级缓存层次,突破显存上限
FlexKV构建了GPU显存→CPU内存→SSD→远程云存储的完整多级缓存体系,将可用缓存容量扩展至GPU显存的100倍以上。热数据留在GPU/CPU,冷数据自动下沉至SSD或远程存储,兼顾性能与成本。
分布式KV Cache复用,跨界点缓存共享
FlexKV设计了一套分布式RadixTree机制,实现跨节点KV Cache的高效共享与复用。相比中心化索引方案,该设计规避了单点性能瓶颈、网络延迟瓶颈和单点故障问题,在大规模多节点集群中具备更强的可扩展性。
高性能I/O与异步流水线
系统支持io_uring和GPU Direct Storage(GDS)加速数据传输,Store/Retrieve操作与GPU计算全程异步重叠,将数据搬运延迟隐藏于推理计算之中,最大化GPU利用率。
KV-Aware智能路由
FlexKV通过ZMQ事件机制将本地缓存状态实时上报给Dynamo KV Router,路由器基于全局RadixTree视图,将请求调度至缓存命中率最高的Worker节点,从而在集群级别系统性地降低首Token延迟(TTFT)。
此次 FlexKV 成功合入三大全球主流推理框架,标志着其正式成为 LLM 推理领域 KV 缓存管理的核心标准方案,可无缝覆盖全球绝大多数企业级、开源 LLM 推理部署场景,同时也是行业内首个实现请求路由 - 缓存管理全链路协同的生产级优化方案。该技术大幅降低大模型推理硬件门槛与部署成本,中小厂商与个人开发者无需深厚底层优化能力,即可获得行业顶级的 KV 缓存优化效果,全面推动 LLM 技术产业普惠。
目前,FlexKV 已基于 Apache-2.0 许可证全面开源,除三大核心框架外,正持续拓展技术生态,与 SGLang、Mooncake 等开源社区深度开展技术共建。此次技术成果,不仅展现了中国云厂商在大模型底层推理技术领域的硬核实力,更持续为全球开源技术生态输出核心贡献,提升中国企业在全球 AI 技术体系中的话语权。