2026-04-09 14:45:43 西盟科技资讯
过去两年,AI基础设施的关键词几乎只有一个:GPU。
从大模型训练到算力军备竞赛,GPU长期占据“绝对核心”的位置,成为企业扩张AI能力的首选资产。但当生成式AI进入规模化落地阶段,行业的关注点正在悄然变化——真正决定AI系统效率的,不再只是算力峰值,而是整体算力结构。
英特尔最新白皮书指出,AI数据中心中CPU与GPU的资源配置比例,正在出现持续上升趋势。这一变化背后,意味着AI算力逻辑正在从“堆叠训练能力”,走向“优化推理与系统效率”。
推理反超训练,AI算力结构迎反转
AI 行业的算力投入,正在经历从 “重训练” 到 “重推理” 的根本性转变,这是推高 CPU 需求的首要原因。
过去,AI 发展以模型研发、训练为核心,海量数据的密集线性代数计算让 GPU 成为绝对主力,CPU 仅负责数据加载、简单编排等辅助工作,CPU:GPU 的用量比值维持在低位。但如今,AI正从研发机构走到各行各业,从“实验” 走向 “落地实战”,推理顺势成为算力支出的重心。
推理与训练在算力需求上的逻辑截然不同,推理的数据编排与管理对 CPU 有强依赖 。如果说训练的核心瓶颈是 GPU 的浮点算力,那么推理的核心瓶颈,早已转移到 CPU 侧的请求处理、编排调度与数据加工。

这让CPU 在推理流程中扮演 “空中交通管制员” 的角色:从用户提交请求开始,紧随其后的数据摄入、清洗、转换、批处理、格式转换等全流程核心环节,对CPU的依赖度普遍超过60%,在很多场景下甚至会达100% ;即便是 GPU 完成的轻量化推理计算,其前后的令牌流处理、KVCache的数据调度、检索路由、结果格式化,也高度依赖CPU。

行业实测数据更能说明问题:优化后的 GPU 单推理请求计算量极小,而 CPU 的数仓流水线非常耗时,往往超过 GPU 的前向传播时间,因此要改善整个工作流的效率,增添CPU的用量或选择更高性能的CPU至关重要。测试结果也发现:高端 GPU要搭配以至强6性能核为代表的高性能CPU ,推理吞吐量才有更可观的性能提升 ——因为在推理中,CPU 的编排效率比 GPU 的原始浮点算力更能决定 AI 推理的实际吞吐量。
更重要的是,Agentic AI 的普及进一步放大了对CPU 的需求。这种普及让企业从 “问答式 AI” 转向 “任务式智能体”,RAG、embedding搜索、多智能体链、多步工作流也成为标配,这些场景需要消耗大量的 CPU 侧逻辑处理能力;而智能体的 “规划 - 工具使用 - 反思 - 优化”的循环,也需要借助CPU来优化整个系统层面的算力结构,例如通过CPU 主导的代码生成 / 沙箱执行机制,来降低对超大参数模型的依赖。

An increased CPU:GPU ratio can benefit multi-agent architectures, where execution agents use VMs as sandboxes to execute code[1].
对于云厂商的多租户 GPU 集群而言,GPU 密度越高,对 CPU 的“伴生”需求就越强——因为 队列管理、安全隔离、MIG 切片分配、资源调度等核心管理工作都需要依赖CPU 完成。其配备的CPU数量必须随GPU用量增加,否则GPU没有CPU在这些任务上的配合,就会现出闲置或空转,让巨额投资打水漂。
强化学习走向普及,CPU将成为仿真与调度的核心基座
如果说推理增长是 CPU 需求上涨的 “基本盘”,那么强化学习(RL)的产业化落地,就是推动 CPU:GPU 比值进一步走高的 “增量引擎”。
曾经,RL 只是专攻视频游戏领域的小众技术,但随着今天自动驾驶、机器人、精密医疗、算法交易等领域的发展演进,RL 已进入更多复杂 3D 仿真环境的产业化应用阶段,而这一过程对 CPU 同样有强依赖或强需求——RL 的核心框架中,环境步进、控制逻辑、搜索、轨迹管理等核心环节均由 CPU 主导,高保真的仿真环境更是需要海量的CPU 算力来支撑。

Reinforcement learning (RL) framework[2].
从行业应用来看,RL 的产业化落地场景正全面铺开,下面这些场景无一例外,都离不开规模化CPU算力的支撑:
•自动驾驶与机器人:特斯拉 Autopilot 的实时决策、机器人的灵巧操作,均需在 CARLA、Isaac Gym 等仿真器中完成训练,多智能体场景、传感器管道、物理仿真逻辑均是在CPU上实现;
•工业与金融:供应链路由、电网负荷调节、算法交易、市场仿真等场景,需要 RL 完成序贯决策优化,而并行环境推演、数据处理也依赖 CPU;
•大模型对齐:RLHF(人类反馈强化学习)是大模型安全对齐的标准方案,奖励评估、采样、GPU 集群编排等工作,进一步增加了 CPU 的调度压力;
•智能体 AI:自改进 AI 智能体的多步规划、工具使用决策框架,都将 RL 作为核心基础,也让 CPU 成为智能体决策的算力底座。
其实RL的训练架构就是先天决定了 它对CPU 的“偏爱”。主流的RL 架构均采用 “Actor-Learner 分离” 设计——Actor(环境步进、推理调用)负责样本收集,几乎全部运行在 CPU;Learner(优化器更新)负责梯度计算,运行在 GPU / 加速器。无论是 IMPALA 架构用数千CPU 并行收集经验,还是 Ray RLlib 为每个 EnvRunner 显式分配 CPU 资源,亦或是 AlphaZero 的蒙特卡洛树搜索(MCTS)需要在CPU 上进行大规模并行推演,它们都离不开CPU的支持,而且CPU用得好不好,也决定了它们的性能上限 。
而随着 RL 环境复杂度的不断攀升,如 高保真物理仿真、多传感器融合、多智能体协作等应用的涌现,其对CPU的需求还在持续攀升:CPU 的核心数和内存子系统的能力,特别是容量直接决定了仿真环境的并行上限,在 PPO 等主流 RL 算法中,CPU 的仿真速率主导了整体的吞吐,GPU 仅负责后续的梯度更新。
不是 GPU 失宠了,而是CPU价值在AI实战中走向回归
CPU的“回归”,并不意味着GPU的重要性下降。
相反,当AI系统从单一模型训练走向大规模推理、强化学习和复杂调度场景时,CPU与GPU之间的协同效率,开始成为决定整体算力利用率和系统能效的关键变量。
AI基础设施的下一阶段竞争,不再只是算力规模的竞争,而是算力结构与系统工程能力的竞争。谁能更好地实现CPU与GPU的协作优化——例如借助英特尔至强6强大的内存带宽与核数优势——谁就更可能在未来的AI时代中占据优势。
[1].Figure 1 is adapted from"From Mind to Machine: The Rise of Manus Al as a Fully Autonomous Digital Agent" by Minjie Shen et al,used under CC BY 4.0.
[2].Figure 2 is adapted from the following source: Nikolopoulou, K. (August 15, 2023).Easy Introduction to Reinforcement Learning. Scribbr. Retrieved March 13, 2026, from https://www.scribbr.com/ai-tools/reinforcement-learning/.