2025-06-16 18:40:15 中华网
6月10日-11日,由云原生计算基金会(CNCF)主办的KubeCon+CloudNativeCon China 2025,在中国中国香港成功举办。作为全球云原生技术领先者和生态共建先行者,华为重磅参与了此次大会。
会上,华为首席开源联络官、CNCF基金会董事任旭东带来《Towards Clouds of AI Clusters》的主题演讲,深度分享了AI时代的算力集群技术演进趋势,介绍了华为在异构集群管理、超大规模集群调度、云边协同AI等领域的应用实践,以及openEuler、Volcano、Karmada、KubeEdge、openFuyao等开源项目的最新进展。
开源加速技术裂变:从云原生到AI原生的价值跃迁
“开源”作为加速创新协同的重要范式,汇聚全球智慧、缩短创新周期、催化更多创新应用落地,也为下一轮技术革命创造指数级价值。
任旭东表示,“回顾历次科技革命可以发现,从技术发明到产业大规模应用的时间正在缩短,并且每一次新的技术革命都是基础设施层的重大变革,并且创造了更多价值。”
开源生态的成熟成为技术扩散的关键。2013年Docker宣布其开源计划,历经数年发展,云原生技术以其弹性、敏捷的特征重塑应用开发与部署模式,持续创造商业价值。
进入智能时代,头部企业市值也早已超过万亿。站在新的历史拐点,开源驱动的AI原生技术体系,正为十万亿美元级企业的诞生孕育土壤。
万亿大模型背后的算力困局
任旭东表示,当前企业在管理AI工作负载时,仍面临严峻挑战,尤其是在大模型训练、推理中对算力规模和集群协同的极高要求。
以DeepSeek V3为例,其参数量为6710亿,单卡性能已无法满足此类模型的需求,集群并行计算提升算力规模将是企业突破算力瓶颈、实现大模型落地的必由之路。
而这不仅需要异构硬件的高效协同,更依赖开源技术栈和分布式范式,如数据并行、模型并行、流水线并行进行深度支持,对异构算力的全栈兼容,最终才能在降低单位训练推理成本的同时,加速万亿参数级模型的商业化落地进程。
为响应上述需求,华为从硬件驱动到集群资源调度实现算力设备的统一管理,支持HyperNode与多集群拓扑感知调度,并对PyTorch/TensorFlow/MindSpore等主流框架、大语言模型(LLMs)及智能体开发场景提供统一支持的全栈开源基础设施解决方案。
“通过openEuler、Volcano、Karmada、KubeEdge、openFuyao五大项目,华为实现了从操作系统到平台层的全栈开源打通与落地,帮助企业实现AI集群内优化、跨集群协同和云边协同,从而破解人工智能发展算力基础设施上面临的困局。”
openEuler:操作系统与AI应用双向进化
任旭东首先介绍了智能时代操作系统底座openEuler的开源进展。2019年,华为将openEuler正式对外开源,2021年,华为携手伙伴将openEuler正式贡献给开放原子开源基金会,并运作至今。从2023年开始,openEuler便将支持人工智能作为核心发展目标之一,并开启了“AI for OS”与“OS for AI”的协同进化。
其一,AI for openEuler:即利用人工智能大模型技术创新让openEuler系统更智能。例如在版本中集成的openEuler智能化解决方案,支持基于自然语言的可视化交互。通过MCP Server,标准化整合了A-Tune调优、A-Ops自动化运维等核心能力,并提供DevStation全流程开发平台,oeDeploy一键分钟级安装部署工具等,用户只需简单操作,即可利用AI完成漏洞自动化修复、自然语言问答、代码辅助生成、编译构建、环境安装部署等功能,使开发智能应用的效率提升至天级,运维效率提升50%以上。
其二,openEuler for AI:即让openEuler成为更坚实的AI工作负载底座。首先,openEuler聚焦拓展和强化软硬件生态:从底层到上层,既支持通用计算与智能计算的全部主流硬件,又与AI框架、加速器及库深度合作,打造全栈开源、“开箱即用”的容器镜像生态:目前各类镜像仓库中已有超200个此类镜像,为用户和开发者提供无缝衔接的体验,并以此助力AI应用创新。此外,openEuler一直注重技术创新,通过GMem异构内存融合技术,sysHAX异构算力协同技术,最大化发挥CPU在推理中的利用率,使AI推理任务吞吐量提升50%。
Volcano:云原生智能调度,提升AI训练和推理效率
作为业界首个云原生批量处理计算项目,Volcano自2019年开源以来,为人工智能、大数据等高性能计算场景提供支持,已成为处理计算密集型任务的关键平台。
任旭东介绍,Volcano能力涵盖队列与资源管理、统一作业API、多样化调度策略、在离线混部、GPU虚拟化、异构算力支持及性能优化等关键领域。特别是针对当前大规模人工智能集群的调度需求,Volcano通过引入了基于HyperNode的网络拓扑感知调度策略,提升人工智能训练和推理效率。
譬如,360集团成功构建了超万卡规模的智算集群,而Volcano作为CNCF官方孵化的云原生调度引擎,成为这一战略平台的核心中枢,助力360集团实现了众多突破。
●全场景生态兼容:无缝支持Kubernetes全生态工作负载,覆盖大数据(Spark)、AI训练、大语言模型等多元化场景,形成统一算力调度底座;
●资源效率跃升:通过智能调度算法将集群资源碎片率控制在7%以内,分配率超85%,利用率提升至45%以上,年调度Pod量突破100万+,大模型训练任务性能优化15%~20%;
●成本与效率双优:依托资源池化与闲时共享机制降低硬件采购成本,通过统一调度平台减少运维复杂度,实现“算力规模化”与“管理轻量化”的双向突破。
Karmada:破解AI任务部署多集群编排难题
Karmada是一款用于云原生多集群工作负载的通用容器编排器,可用于管理传统工作负载和人工智能工作负载。
当前,人工智能业务面临集群选择效率低、任务交付易出错、资源利用率低下等难题,其核心原因在于缺乏智能编排器,而Karmada的自动化编排能力可系统性破解这些问题。
Karmada通过三大核心功能实现智能调度:
●多样性的策略部署:Karmada能提供丰富的集群部署策略,用户可轻松定义任务在多集群间的分布规则,从而避免人工决策的耗时与误差。
●智能化资源解析:Karmada支持通过简易配置自动提取AI任务的资源特征,调度器基于实时数据生成最优分配方案,从而解决“任务需求与集群能力错配”问题。
●动态化集群匹配:Karmada能够持续监测各集群的GPU/CPU利用率、网络负载等关键指标,结合任务优先级动态匹配最佳执行集群,从而大幅提升AI推训过程资源利用效率。
KubeEdge:Sedna云边协同AI推理,优化算力成本
在工业场景,数据在边缘生成。但边缘计算资源有限,模型推训需要将数据发送到云端进行计算。这对云边带宽提出了很高的要求。在这一人工智能应用场景,任旭东也带来了KubeEdge Sedna的最新进展。
KubeEdge是业界首个云原生边缘计算项目,并于2024年10月成为CNCF首个毕业级的边缘计算项目。其边缘人工智能子项目Sedna,为开发者提供了云边协同人工智能框架,在学习与推理模式上支持联合推理、联邦学习等多样化模式。而在兼容性方面,Sedna与TensorFlow、PyTorch、MindSpore等主流人工智能框架无缝对接,开发者无需大幅改动代码,就能将现有AI应用快速迁移至边云协同环境,大大降低了开发门槛与成本。
“借助KubeEdge Sedna的云边协同机制,用户可灵活设置推理置信度阈值:边缘端通过轻量化模型完成数据初筛,满足置信度标准的结果直接本地返回,仅将疑难样本传输至云端进行深度推理。这一机制使边缘侧计算资源需求降低50%,同时将云边数据传输量削减90%,显著优化了带宽压力与算力成本。”
openFuyao:构建万级节点级算力集群软件生态
随着人工智能的发展,算力需求持续爆发,集群已成为当前业界应对算力需求快速增长的主要解决方案。然而,集群软件生态的发展滞后,也导致异构硬件协同效率低下、资源调度精细化不足、跨集群协同能力缺失等问题日益凸显。
“openFuyao希望与产业伙伴及开发者携手,构建一个多样化的算力集群软件开源社区,共同推动集群软件发展,为世界提供多样化算力集群软件开源生态。”任旭东表示。
openFuyao面向企业伙伴,提供在线/离线混部、NUMA亲和等算力调度组件,能够实现资源利用率及性能超30%提升,支持超16000节点的超大规模集群;面向开发者,提供可插拔架构,实现分钟级的一键安装部署,以及小时级的平滑升级。
同时,openFuyao社区已于5月对外发布。任旭东呼吁广大开发者加入openFuyao社区,共建多样化集群算力软件生态及技术创新。
AI算力生态跃迁:从云原生到AI原生
在智能计算的赛道上,技术突破从不是单一个体的孤军奋战,而是开源生态中千万开发者与企业的接力长跑。
从云原生到AI原生的征程中,需要操作系统、算力调度、编排、边缘计算等各领域的开源项目并肩前行,也需要模型训练、推理服务等领域持续突破。开源,能吸引更多的企业、开发者加入到这场技术接力中来,共同走进智能新时代。