首页 > 技术

单卡推理2300 Tokens/s,华为云超越NVIDIA凭什么?

2025-07-01 16:58:03      西盟科技资讯   


  众所周知,“AI工厂”是NVIDIA CEO黄仁勋率先在全球提出的新概念,经过了2022年到2024年的技术发展才明确了“AI工厂”生产的产品就是大模型推理所生成的“Token”。整个生成式AI产业包括生产大模型以及大模型微调用于各行各业推理和智能体生成“Token”,从而将大模型AI转换为真正的生产力和商业价值,而“AI工厂”更指向生产“推理Token”。

  在HDC 2025大会上,华为云宣布基于CloudMatrix384超节点的新一代昇腾AI云服务全面上线,CloudMatrix384超节点是在去年发布的CloudMatrix架构下的首个生产级超节点,配合DeepSeek-R1万亿参数MoE模型,展现出超越NVIDIA H100/H800的推理性能,单卡推理吞吐量(即生产推理Token)跃升到2300 Tokens/s,超节点还支持训推算力一体化部署,在云数据中心还能将432个超节点级联成最高16万卡的超大集群。

  华为云CloudMatrix384超节点昇腾AI云服务是可与NVIDIA超节点方案并列的两大顶配“AI工厂”路线,与常规的万卡集群有着本质的不同。2025年4月,华为云与创新公司硅基流动团队联合发表了重磅英文论文,首次完整披露了CloudMatrix384超节点架构和实践,硅基流动已经使用CloudMatrix384超节点为数百万用户高效提供DeepSeek V3、R1推理服务。

  那么,华为云凭什么与NVIDIA争锋?

  三条系统级创新路线

  华为云与硅基团队的《Serving Large Language Models on Huawei CloudMatrix384(在华为CloudMatrix384上线大语言模型)》是一篇长达58页的英文论文,该论文详细介绍了CloudMatrix架构和CloudMatrix384生产级实践。在更深入这篇论文以了解华为云CloudMatrix384与NVIDIA同类型系统的异同之前,我们先来理解一下当前的三大“AI工厂”技术方案路线。

  首先要了解,MOE混合专家模型架构是当前主流的大模型架构,“AI工厂”以适配MOE架构为优先。MOE架构即将具有不同“专长”的专家子模型组合起来形成“专家网络”,从而将一个复杂的问题拆解为若干子问题,每个子问题由一个独立的专家模型进行处理,再有效结合不同“专家”的结论,就能快速进行训练/推理。MOE的特点包括训练快、推理快、扩展性好、多任务能力强等,开源大模型“当红炸子鸡”DeepSeek就是基于MOE架构。

  第二,由于大模型可以扩展到万亿参数,这已经远远超出了单GPU/NPU/智算卡的性能,因此各大技术厂商纷纷从万卡集群角度进行创新,试图通过整个AI数据中心的软硬件整体优化角度,实现更高的单卡Token吞吐量。当前,适配MOE架构大模型的AI数据中心即“AI工厂”技术路线,主要有三大技术方案路线,分别是NVIDIA超节点路线、华为CloudMatrix超节点路线以及各智算中心等自行搭建的万卡集群路线。

  万卡集群路线是很多云厂商、互联网厂商、车企、智算中心或AI数据中心选择的一条主要技术方案路线,该路线主要选择通用Linux服务器搭配GPU/NPU/智算卡等,配合以太网交换机组成的通用或增强通用网络,再结合通用或高性能存储方案,可以说是“AI工厂”的“中低配”方案。该方案通过网络的“Scale Out”进行扩展,所谓“Scale Out”方案就是传统数据中心所采用的分级交换机方案,典型的有三层交换网络,可以实现集群内以及跨集群和跨数据中心的互联方案。

  与万卡集群不同的是NVIDIA提出的超节点方案。2024 GTC大会上,NVIDIA推出了基于NVL72液冷机架服务器设计的DGX Superpod“顶配版”超节点,搭配了最先进的NVIDIA GPU和CPU,通过NVLink和NVLink Switch实现单节点的“Scale Up”高性能互联,即将一个超节点视为一个巨大的虚拟GPU,“Scale Up”就是在节点内加入更多的GPU,再通过高性能网络Infiniband实现超节点间的“Scale Out”互联,可以将更多的超节点连起来形成万卡集群。

  而华为提出的CloudMatrix超节点方案与NVIDIA的类似,不同的是由于国内缺乏与NVIDIA有同等竞争力的GPU以及相应的NVLink和CUDA等成熟NVIDIA生态,华为运用自己的网络通信专长而提出了MatrixLink对等全互联方案,实现了单节点的“Scale Up”高性能互联,再采用RDMA增强以太网络实现多个超节点互联的“Scale Out”,从而实现万卡集群。

  简单理解,NVIDIA主板内的GPU-GPU由NVLink实现、增强了NVLink Switch的NVIDIA主板内为GPU-NVLink Switch-GPU、超节点内不同主板GPU通信由NVLink Switch实现。而华为则将主板内以及超节点内不同主板上的NPU和CPU都放到了一个点对点对等网络中,实现了超节内所有NPU和CPU的全局对等通信和高带宽。CloudMatrix384可以作为一个紧耦合的大规模逻辑节点,计算和内存全局可寻址,便于统一资源池化和高效的工作负载编排。

  第三,在MatrixLink和基于MatrixLink的统一总线之上,华为CloudMatrix384实现了 “一切可池化、一切皆对等、一切可组合”,即将超节点内的NPU和CPU、NPU和CPU上的内存、NPU上的AI Core、缓存以及外部云缓存、云存储等异构资源都解耦拆分并归类组合成同类资源池,从而高效满足大模型训推计算需求。

  在硬件资源极致池化的基础上,华为云团队专门为大规模MoE模型设计的综合LLM推理服务解决方案CloudMatrix-Infer,这是涵盖了算法、服务引擎、CANN库和云服务的全栈优化,而高达每秒2300 Tokens的单卡推理吞吐也是在这一解决方案下优化的结果。值得一提的是,华为云持续推进CANN算子生态,对标NVIDIA CUDA,强化PyTorch和TensorFlow等流行AI软件框架与昇腾NPU硬件之间的兼容性。

  解读CloudMatrix384的先进性

  从三条“AI工厂”技术路线可以看出,传统数据中心在大模型与生成式AI时代正在经历巨变:从传统数据中心与应用APP之间的南北流量(即以数据中心外部流量为主),转而注重数据中心内部服务器与服务器之间的东西流量(即以数据中心内部流量为主),这就是AI数据中心即计算机,也就是将整个数据中心视作一台完整的高性能计算机、整个数据中心承载一个或几个大模型工作负载,而不是将数据中心视作一个一个承载了不同应用的集群组合。

  那么,第一,面向“AI工厂”的万卡集群是传统数据中心的利旧,即通过各种技术增强而让传统数据中心适配大模型工作负载,当然由于传统数据中心并不是围绕大模型而设计,因此在运行大模型训推时存在各种“墙”和延时,导致生产Token的效率在三条技术路线中最低。第二,NVIDIA的AI工厂是围绕大模型而重构了数据中心,专门为大模型工作负载而生,但因为路径依赖而不得不围绕已经有NVIDIA技术栈而建,例如NVLink+NVLink Switch的通信方案。第三,华为云CloudMatrix384由于没有历史负担或技术债,可以真正重构AI数据中心,用全局对等通信和全局高带宽,打破了所有的“墙”,极致降低各种“延时”,最终实现了超越NVIDIA主流GPU单卡推理呑吐的结果。

  那么,在CloudMatrix384全局对等通信和全局高带宽的前提下,MOE大模型推理发生了什么变化呢?我们以曾经掀起了第二次工业革命浪潮的福特汽车为例。当时,福特汽车推出T型车,这是世界上首辆以大量通用零部件进行大规模流水线装配作业的汽车,相应福特汽车开创了流水线生产模式,将组装一辆汽车的时间从数周降低到93分钟,后期又进一步降低到10秒钟以内。那么,CloudMatrix384就是将MOE大模型拆解为可以在CloudMatrix384超节点上用大量通用“零部件”进行流水线装配的大模型“T型车”。

  例如:传统集群模式下进行推理,将一个复杂问题拆分为若干个子问题,然后在每一张单卡上分配了所有的“专家”,每个“专家”都要将所有相关子问题都运行一遍,然后再将总输出结果组装起来,导致每一张单卡的每一个“专家”只能获得少量的计算和通信能力,这就是一卡多专家的“小作坊模式”;而超节点“工厂”里每一张单卡上只分配一个专家,通过全局对等网络将所有相关问题都汇集给同一“专家”,同一“专家”集中处理所有相关子问题后再返还给系统进行最后的组装,显然单卡的MoE计算和通信效率都大幅提升了。

(CloudMatrix-infer的PDC解耦示意图)

  再例如,CloudMatrix-Infer的PDC( Prefill-Decode-Caching)解耦对等服务架构,该架构将LLM推理工作流分解为独立可扩展的组件,同时利用CloudMatrix384的高带宽互连进行高效协调。通常LLM推理工作流包括两大阶段:Prefill预填充阶段处理Prompt提示词并生成推理的首个Token以及初始KV缓存、Decode解码阶段负责自回归生成后续Token,在Decode阶段也会产生大量的KV缓存,这些KV缓存在自回归步骤中被反复使用,因此传统LLM推理需要与KV缓存物理位置紧耦合,因为远程读取KV缓存将带来显著的延时。而PDC分离则将Prefill固化在Prefill集群、将Decode固化在Decode集群,同时利用统一总线的全局寻址高带宽特点而另设立了独立的KV缓存集群,这样不论是Prefill集群还是Decode集群的NPU都能够直接访问独立KV缓存集群的共享内存缓存,突破了数据的物理位置限制,显著提高了负载均衡、NPU利用率以及内存利用率,同时提供了更大的弹性。

  就华为云CloudMatrix384昇腾AI云服务来说,从多个维度对于MOE大模型推理进行了零部件和工序的拆解,包括硬件维度、软件维度、算法维度以及云服务维度等,具体可参考《Serving Large Language Models on Huawei CloudMatrix384(在华为CloudMatrix384上线大语言模型)》论文。华为云CloudMatrix384昇腾AI云服务将大模型推理Token的生产,推进到了流水线生产模式,而且是更为先进的全网状现代化流水线生产模式。

(在华为云上部署CloudMatrix384云基础设施软件栈)

  在CloudMatrix384之上,华为云提供了MatrixCompute、MatrixLink、MatrixResource、MatrixContainer等云软件服务,再搭配ModelArts,向上支撑各类AI工作负载。当前,昇腾AI云服务已为超过1300家客户提供AI算力,加速千行万业智能化升级。新浪与华为云深度合作,基于CloudMatrix384昇腾AI云服务,为“智慧小浪”智能服务体系构建了统一的推理平台,底层由昇腾AI算力提供支持,推理的交付效率提升了超过 50%,模型上线速度成倍加快,通过软硬协同调优,NPU利用率提升超过40%。

  目前CloudMatrix384昇腾AI云服务已经在华为云CloudOcean的4大节点:乌兰察布、贵安、芜湖、和林格尔上线,依托华为云光纤骨干网支持百TB级的带宽互联,同时10毫秒时延圈覆盖了全国19个城市群,全国主要流量高地城市都能在10毫秒之内访问超节点资源,这也意味着这些城市能够马上获得“AI工厂华为云造”的体验。

  整体来说:华为CloudMatrix架构以及基于CloudMatrix384超节点的昇腾AI云服务,正是为全球AI工厂提供了一条中国路线,为第四次工业革命真正开局闯出了华为路径——全球新的战略制高点插上了以华为代表中国科技大旗。随着华为云CloudMatrix384昇腾AI云服务的正式上线,数字中国将开启全新的征程——从世界工厂到世界AI工厂的世纪转型!

相关阅读