腾讯云FlexKV合入全球三大主流大模型推理框架解决推理成本瓶颈

2026-04-15 16:59:37 中华网

　　由腾讯云TACO团队联合开源社区共同开发的分布式KV存储与多级缓存管理系统 FlexKV，正式完成NVIDIA Dynamo、vLLM、TensorRT-LLM三大全球主流大语言模型 (LLM) 推理框架官方主分支合入，成为低成本接入三大框架的KV Cache Offloading方案。相关代码分别于2026年3月3日、3月12日、3月28日正式合并，全球开发者无需修改代码、无需额外打补丁，仅通过基础配置即可一键启用该核心优化能力。

图片 1.png

　　随着LLM产业化落地深入，长上下文、多轮对话、高并发推理已成为行业主流场景，而KV Cache带来的GPU显存瓶颈，成为制约推理效率与成本控制的核心行业痛点。行业实测显示，高并发场景下GPU显存70%以上会被KV Cache占用，不仅限制单卡并发上限与上下文长度，还会因缓存丢弃导致的重复计算推高推理算力成本。根据英伟达测算，未做 KV Cache 卸载优化的推理集群，单位Token的生成成本会因重复计算提升 2-3 倍，高并发峰值期的单位Token成本甚至提升3.5倍。

　　以一家中等规模企业部署AI智能客服LLM推理集群为例，该系统需要提供7×24 小时多轮对话服务，业务高并发时段集中在电商大促、售后咨询峰值。因KV Cache 显存瓶颈和缓存驱逐导致的额外成本，占单月总运营成本的78%。而一家典型的大型互联网企业，缓存驱逐引发的重复计算算力成本，超过硬件采购成本的5%，成为推理业务规模化落地的核心成本包袱。

　　腾讯云FlexKV专为超大规模 LLM 推理场景设计，可挂载PB级别的远端存储并支持跨节点共享，突破规模化推理的显存瓶颈。其首创的分布式RadixTree前缀索引机制，解决了传统方案中心化索引的单点性能与故障风险，实现了跨节点KV缓存的高效共享;异步流水线设计可让缓存读写操作与 GPU 计算完全重叠，彻底隐藏数据搬运延迟。实测数据显示，启用FlexKV 后，LLM推理首Token 延迟 (TTFT) 降低约60%，单Token延迟 (TPOT)降低13%，单集群每分钟请求处理量 (QPM) 提升 16%，实现了用户体验与集群吞吐的双重优化。

图片 2.png

图：FlexKV完整工作流

　　多级缓存层次，突破显存上限

　　FlexKV构建了GPU显存→CPU内存→SSD→远程云存储的完整多级缓存体系，将可用缓存容量扩展至GPU显存的100倍以上。热数据留在GPU/CPU，冷数据自动下沉至SSD或远程存储，兼顾性能与成本。

　　分布式KV Cache复用，跨界点缓存共享

　　FlexKV设计了一套分布式RadixTree机制，实现跨节点KV Cache的高效共享与复用。相比中心化索引方案，该设计规避了单点性能瓶颈、网络延迟瓶颈和单点故障问题，在大规模多节点集群中具备更强的可扩展性。

　　高性能I/O与异步流水线

　　系统支持io_uring和GPU Direct Storage(GDS)加速数据传输，Store/Retrieve操作与GPU计算全程异步重叠，将数据搬运延迟隐藏于推理计算之中，最大化GPU利用率。

　　KV-Aware智能路由

　　FlexKV通过ZMQ事件机制将本地缓存状态实时上报给Dynamo KV Router，路由器基于全局RadixTree视图，将请求调度至缓存命中率最高的Worker节点，从而在集群级别系统性地降低首Token延迟(TTFT)。

　　此次 FlexKV 成功合入三大全球主流推理框架，标志着其正式成为 LLM 推理领域 KV 缓存管理的核心标准方案，可无缝覆盖全球绝大多数企业级、开源 LLM 推理部署场景，同时也是行业内首个实现请求路由 - 缓存管理全链路协同的生产级优化方案。该技术大幅降低大模型推理硬件门槛与部署成本，中小厂商与个人开发者无需深厚底层优化能力，即可获得行业顶级的 KV 缓存优化效果，全面推动 LLM 技术产业普惠。

　　目前，FlexKV 已基于 Apache-2.0 许可证全面开源，除三大核心框架外，正持续拓展技术生态，与 SGLang、Mooncake 等开源社区深度开展技术共建。此次技术成果，不仅展现了中国云厂商在大模型底层推理技术领域的硬核实力，更持续为全球开源技术生态输出核心贡献，提升中国企业在全球 AI 技术体系中的话语权。

分享到微博分享到微信

腾讯云FlexKV合入全球三大主流大模型推理框架解决推理成本瓶颈

相关阅读

新动态

关注度

最话题

腾讯云FlexKV合入全球三大主流大模型推理框架 解决推理成本瓶颈

相关阅读

新动态

关注度

最话题

腾讯云FlexKV合入全球三大主流大模型推理框架解决推理成本瓶颈