Intel白皮书：CPU用量激增，与GPU协同成制胜关键

2026-04-09 14:45:43 西盟科技资讯

　　过去两年，AI基础设施的关键词几乎只有一个：GPU。

　　从大模型训练到算力军备竞赛，GPU长期占据“绝对核心”的位置，成为企业扩张AI能力的首选资产。但当生成式AI进入规模化落地阶段，行业的关注点正在悄然变化——真正决定AI系统效率的，不再只是算力峰值，而是整体算力结构。

　　英特尔最新白皮书指出，AI数据中心中CPU与GPU的资源配置比例，正在出现持续上升趋势。这一变化背后，意味着AI算力逻辑正在从“堆叠训练能力”，走向“优化推理与系统效率”。

　　推理反超训练，AI算力结构迎反转

　　AI 行业的算力投入，正在经历从 “重训练” 到 “重推理” 的根本性转变，这是推高 CPU 需求的首要原因。

　　过去，AI 发展以模型研发、训练为核心，海量数据的密集线性代数计算让 GPU 成为绝对主力，CPU 仅负责数据加载、简单编排等辅助工作，CPU:GPU 的用量比值维持在低位。但如今，AI正从研发机构走到各行各业，从“实验” 走向 “落地实战”，推理顺势成为算力支出的重心。

　　推理与训练在算力需求上的逻辑截然不同，推理的数据编排与管理对 CPU 有强依赖。如果说训练的核心瓶颈是 GPU 的浮点算力，那么推理的核心瓶颈，早已转移到 CPU 侧的请求处理、编排调度与数据加工。

　　这让CPU 在推理流程中扮演 “空中交通管制员” 的角色：从用户提交请求开始，紧随其后的数据摄入、清洗、转换、批处理、格式转换等全流程核心环节，对CPU的依赖度普遍超过60%，在很多场景下甚至会达100% ;即便是 GPU 完成的轻量化推理计算，其前后的令牌流处理、KVCache的数据调度、检索路由、结果格式化，也高度依赖CPU。

　　行业实测数据更能说明问题：优化后的 GPU 单推理请求计算量极小，而 CPU 的数仓流水线非常耗时，往往超过 GPU 的前向传播时间，因此要改善整个工作流的效率，增添CPU的用量或选择更高性能的CPU至关重要。测试结果也发现：高端 GPU要搭配以至强6性能核为代表的高性能CPU ，推理吞吐量才有更可观的性能提升 ——因为在推理中，CPU 的编排效率比 GPU 的原始浮点算力更能决定 AI 推理的实际吞吐量。

　　更重要的是，Agentic AI 的普及进一步放大了对CPU 的需求。这种普及让企业从 “问答式 AI” 转向 “任务式智能体”，RAG、embedding搜索、多智能体链、多步工作流也成为标配，这些场景需要消耗大量的 CPU 侧逻辑处理能力;而智能体的 “规划 - 工具使用 - 反思 - 优化”的循环，也需要借助CPU来优化整个系统层面的算力结构，例如通过CPU 主导的代码生成 / 沙箱执行机制，来降低对超大参数模型的依赖。

　　An increased CPU:GPU ratio can benefit multi-agent architectures, where execution agents use VMs as sandboxes to execute code[1].

　　对于云厂商的多租户 GPU 集群而言，GPU 密度越高，对 CPU 的“伴生”需求就越强——因为队列管理、安全隔离、MIG 切片分配、资源调度等核心管理工作都需要依赖CPU 完成。其配备的CPU数量必须随GPU用量增加，否则GPU没有CPU在这些任务上的配合，就会现出闲置或空转，让巨额投资打水漂。

　　强化学习走向普及，CPU将成为仿真与调度的核心基座

　　如果说推理增长是 CPU 需求上涨的 “基本盘”，那么强化学习(RL)的产业化落地，就是推动 CPU:GPU 比值进一步走高的 “增量引擎”。

　　曾经，RL 只是专攻视频游戏领域的小众技术，但随着今天自动驾驶、机器人、精密医疗、算法交易等领域的发展演进，RL 已进入更多复杂 3D 仿真环境的产业化应用阶段，而这一过程对 CPU 同样有强依赖或强需求——RL 的核心框架中，环境步进、控制逻辑、搜索、轨迹管理等核心环节均由 CPU 主导，高保真的仿真环境更是需要海量的CPU 算力来支撑。

　　Reinforcement learning (RL) framework[2].

　　从行业应用来看，RL 的产业化落地场景正全面铺开，下面这些场景无一例外，都离不开规模化CPU算力的支撑：

　　•自动驾驶与机器人：特斯拉 Autopilot 的实时决策、机器人的灵巧操作，均需在 CARLA、Isaac Gym 等仿真器中完成训练，多智能体场景、传感器管道、物理仿真逻辑均是在CPU上实现;

　　•工业与金融：供应链路由、电网负荷调节、算法交易、市场仿真等场景，需要 RL 完成序贯决策优化，而并行环境推演、数据处理也依赖 CPU;

　　•大模型对齐：RLHF(人类反馈强化学习)是大模型安全对齐的标准方案，奖励评估、采样、GPU 集群编排等工作，进一步增加了 CPU 的调度压力;

　　•智能体 AI：自改进 AI 智能体的多步规划、工具使用决策框架，都将 RL 作为核心基础，也让 CPU 成为智能体决策的算力底座。

　　其实RL的训练架构就是先天决定了它对CPU 的“偏爱”。主流的RL 架构均采用 “Actor-Learner 分离” 设计——Actor(环境步进、推理调用)负责样本收集，几乎全部运行在 CPU;Learner(优化器更新)负责梯度计算，运行在 GPU / 加速器。无论是 IMPALA 架构用数千CPU 并行收集经验，还是 Ray RLlib 为每个 EnvRunner 显式分配 CPU 资源，亦或是 AlphaZero 的蒙特卡洛树搜索(MCTS)需要在CPU 上进行大规模并行推演，它们都离不开CPU的支持，而且CPU用得好不好，也决定了它们的性能上限。

　　而随着 RL 环境复杂度的不断攀升，如高保真物理仿真、多传感器融合、多智能体协作等应用的涌现，其对CPU的需求还在持续攀升：CPU 的核心数和内存子系统的能力，特别是容量直接决定了仿真环境的并行上限，在 PPO 等主流 RL 算法中，CPU 的仿真速率主导了整体的吞吐，GPU 仅负责后续的梯度更新。

　　不是 GPU 失宠了，而是CPU价值在AI实战中走向回归

　　CPU的“回归”，并不意味着GPU的重要性下降。

　　相反，当AI系统从单一模型训练走向大规模推理、强化学习和复杂调度场景时，CPU与GPU之间的协同效率，开始成为决定整体算力利用率和系统能效的关键变量。

　　AI基础设施的下一阶段竞争，不再只是算力规模的竞争，而是算力结构与系统工程能力的竞争。谁能更好地实现CPU与GPU的协作优化——例如借助英特尔至强6强大的内存带宽与核数优势——谁就更可能在未来的AI时代中占据优势。

　　[1].Figure 1 is adapted from"From Mind to Machine: The Rise of Manus Al as a Fully Autonomous Digital Agent" by Minjie Shen et al,used under CC BY 4.0.

　　[2].Figure 2 is adapted from the following source: Nikolopoulou, K. (August 15, 2023).Easy Introduction to Reinforcement Learning. Scribbr. Retrieved March 13, 2026, from https://www.scribbr.com/ai-tools/reinforcement-learning/.

分享到微博分享到微信

Intel白皮书：CPU用量激增，与GPU协同成制胜关键

相关阅读

新动态

关注度

最话题