查看: 117|回复: 2

CPU逻辑回归？ [复制链接]

溯溪而上

军衔等级：

四级通信军士

注册：2017-8-14 点赞数

214

电梯直达

1^# 大中小

发表于 2026-4-22 09:38:25 |只看该作者 |倒序浏览

猫叔傅里叶的猫

640?wx_fmt=png&from=appmsg&watermark=1#imgIndex=0

在今年年初那段时间，市场上就都在炒CPU回归的逻辑了，主要就是因为Agent的兴起，对CPU的需求激增，导致CPU一度涨价。但当时国内CSP的云服务中，CPU的整体利用率并不是非常高，而且CPU的涨价幅度也比较温和。

但随着这段时间Openclaw和其他AI Agent的广泛应用，CPU短缺已经开始加剧了。

640?wx_fmt=jpeg&from=appmsg&watermark=1#imgIndex=1

客户开始疯狂采购 CPU，以至于 Intel 不得不把原本给 PC 的产能紧急调配到服务器芯片上，甚至提高了 2026 年的资本开支。从 2023 年 ChatGPT 发布以来，整个行业的钱都在往 GPU 上砸，CPU 市场基本是平的，现在突然转向。

早期的 AI 应用很简单：你问一个问题，模型给你一个答案。这个过程主要靠 GPU 做矩阵运算，CPU 只是负责把数据喂给 GPU，然后把结果传回来。所以那时候，一个 CPU 可以服务 8 个甚至 12 个 GPU, CPU 的需求自然上不去。

但Agentic AI不再只是回答问题，而是要“做事”。

举个例子：你让 AI 帮你规划一次旅行。它需要先搜索目的地信息，然后查询航班，对比酒店价格，查看天气预报，可能还要调用你的日历看你什么时候有空，最后综合这些信息给你一个方案。

这个过程中，GPU 只负责理解你的需求和生成文字，真正耗时的是中间那些“跑腿”的工作：调用搜索 API、查询数据库、处理返回的数据、协调不同的任务……这些都是 CPU 的活。

在这类智能体任务中，CPU 侧的处理时间可以占到整个流程的 50% 到 90%。换句话说，瓶颈不再是 GPU 的计算能力，而是 CPU 的协调能力。

数据中心的配置正在重构

这个变化直接体现在硬件配置上。

以前一个数据中心，假设有 1GW 的供电能力，可能会配置 3000 万个 CPU 核心。现在为了支持智能体应用，这个数字要涨到 1.2 亿——翻了 4 倍。

更直观的例子是微软为 OpenAI 建的“Fairwater”数据中心：295MW 的功率给 GPU,48MW 给 CPU。这意味着每 6 瓦 GPU 功率，就需要 1 瓦 CPU 功率来支撑。而在传统的 AI 训练场景里，这个比例可能是 20:1 甚至更高。

英伟达最新的 Rubin 架构更夸张：CPU 和 GPU 的配比从之前的 1:12 变成了 1:2，有些配置甚至是 2:1。也就是说，未来的 AI 服务器里，CPU 的数量可能比 GPU 还多。

CPU 需求的增长不只是“多买几块”这么简单，对 CPU 的类型也提出了新要求。

现在数据中心里的 CPU 开始分化成两类：

一类是管家型CPU，专门负责照顾 GPU。它需要高性能、大缓存、高带宽，确保 GPU 不会因为等数据而闲置。英伟达专门为此设计了 Vera CPU, AMD 的 Venice 也是这个定位。这类 CPU 通常是 1 个配 2 到 4 个 GPU。

另一类是干活型CPU，专门用来跑那些智能体的协调任务。它不需要特别高的单核性能，但要核心数多、功耗低、吞吐量大。AWS 的 Graviton、微软的 Cobalt 都属于这一类。

这种分化背后，是 AI 应用场景的多样化。训练模型需要前者，服务用户需要后者，而且后者的需求增长更快。

强化学习

除了智能体，还有一个被很多人忽视的需求来源：强化学习（RL）。

现在的大模型训练，越来越依赖强化学习来提升质量。但强化学习有个特点：模型生成一个动作后，需要有个“环境”来执行这个动作，然后给出反馈，告诉模型做得对不对。

这个环境就需要大量 CPU。比如训练一个编程模型，它生成一段代码后，你得用 CPU 去编译、运行、测试，看结果对不对。训练一个物理模拟模型，你得用 CPU 跑复杂的物理计算。

微软那个 48MW 的 CPU 集群，很大一部分就是干这个的。而且随着模型越来越复杂，这部分需求还在快速增长。未来一代 GPU可能需要更高的 CPU 功率配比，因为 GPU 的性能提升速度远快于 CPU。

竞争格局在重塑

CPU 市场重新热闹起来，各家的策略也开始分化。

AMD ：现在势头最猛，它的 EPYC 处理器本来就在数据中心市场占优，现在又有完整的 GPU 产品线（MI300、MI450），可以做到 CPU、GPU、网络芯片的全栈优化。今年下半年要推出的 Helios 机架系统，就是把这些东西整合在一起，直接卖整套方案。这种垂直整合的打法，在功耗受限的数据中心里很有优势。

Intel ：它的企业客户基础还在，但在 AI 数据中心这块一直没找到节奏。不过最近的需求爆发给了它机会，关键看能不能抓住。

Arm ：它推出了专门针对智能体优化的 AGI 处理器，号称能效比是传统 CPU 的两倍。Meta 已经在测试了，Lenovo 也宣布要合作。

但 Arm 面临三个挑战：

第一，它以前只卖架构授权，现在要自己做芯片、搞量产，这是完全不同的游戏。良率、供应链、客户验证，每一步都是坑。

第二，它的客户很多本身就在用 Arm 架构做 CPU，比如 Ampere、AWS、微软。现在 Arm 自己下场做芯片，等于跟客户抢生意，这个生态关系很微妙。

第三，AMD 和 Intel 肯定不会坐以待毙。它们完全可以推出功耗优化版的 CPU 来对标 Arm，而且它们有成熟的生产和客户关系。

所以短期内（2-3 年）, Arm 很难撼动现有格局。但如果它真的做出来了，对整个市场会是个不小的冲击。

至于大家最关心的国内公司，目前国内的AI服务器中（8卡机），基本还都是AMD/Intel的CPU，当然那个名字不能提的公司除外。虽然阿里云也买了很多国产CPU，但依然是给信创用的，跟这波Agent AI关系并不大。这波CPU的紧缺也给了国产CPU机会，看他们能不能抓住了。

本主题由版主或管理员于 2026-4-22 13:06 添加图章推荐