通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索
查看: 117|回复: 2
打印

CPU逻辑回归? [复制链接]

军衔等级:

  四级通信军士

注册:2017-8-14214
跳转到指定楼层
1#
发表于 2026-4-22 09:38:25 |只看该作者 |倒序浏览
猫叔 傅里叶的猫

640?wx_fmt=png&from=appmsg&watermark=1#imgIndex=0

在今年年初那段时间,市场上就都在炒CPU回归的逻辑了,主要就是因为Agent的兴起,对CPU的需求激增,导致CPU一度涨价。但当时国内CSP的云服务中,CPU的整体利用率并不是非常高,而且CPU的涨价幅度也比较温和。

但随着这段时间Openclaw和其他AI Agent的广泛应用,CPU短缺已经开始加剧了。

640?wx_fmt=jpeg&from=appmsg&watermark=1#imgIndex=1

客户开始疯狂采购 CPU,以至于 Intel 不得不把原本给 PC 的产能紧急调配到服务器芯片上,甚至提高了 2026 年的资本开支。从 2023 年 ChatGPT 发布以来,整个行业的钱都在往 GPU 上砸,CPU 市场基本是平的,现在突然转向。

早期的 AI 应用很简单:你问一个问题,模型给你一个答案。这个过程主要靠 GPU 做矩阵运算,CPU 只是负责把数据喂给 GPU,然后把结果传回来。所以那时候,一个 CPU 可以服务 8 个甚至 12 个 GPU, CPU 的需求自然上不去。

但Agentic AI不再只是回答问题,而是要“做事”。

举个例子:你让 AI 帮你规划一次旅行。它需要先搜索目的地信息,然后查询航班,对比酒店价格,查看天气预报,可能还要调用你的日历看你什么时候有空,最后综合这些信息给你一个方案。

这个过程中,GPU 只负责理解你的需求和生成文字,真正耗时的是中间那些“跑腿”的工作:调用搜索 API、查询数据库、处理返回的数据、协调不同的任务……这些都是 CPU 的活。

在这类智能体任务中,CPU 侧的处理时间可以占到整个流程的 50% 到 90%。换句话说,瓶颈不再是 GPU 的计算能力,而是 CPU 的协调能力。

数据中心的配置正在重构

这个变化直接体现在硬件配置上。

以前一个数据中心,假设有 1GW 的供电能力,可能会配置 3000 万个 CPU 核心。现在为了支持智能体应用,这个数字要涨到 1.2 亿——翻了 4 倍。

更直观的例子是微软为 OpenAI 建的“Fairwater”数据中心:295MW 的功率给 GPU,48MW 给 CPU。这意味着每 6 瓦 GPU 功率,就需要 1 瓦 CPU 功率来支撑。而在传统的 AI 训练场景里,这个比例可能是 20:1 甚至更高。

英伟达最新的 Rubin 架构更夸张:CPU 和 GPU 的配比从之前的 1:12 变成了 1:2,有些配置甚至是 2:1。也就是说,未来的 AI 服务器里,CPU 的数量可能比 GPU 还多。

CPU 需求的增长不只是“多买几块”这么简单,对 CPU 的类型也提出了新要求。

现在数据中心里的 CPU 开始分化成两类:

一类是管家型CPU,专门负责照顾 GPU。它需要高性能、大缓存、高带宽,确保 GPU 不会因为等数据而闲置。英伟达专门为此设计了 Vera CPU, AMD 的 Venice 也是这个定位。这类 CPU 通常是 1 个配 2 到 4 个 GPU。

另一类是干活型CPU,专门用来跑那些智能体的协调任务。它不需要特别高的单核性能,但要核心数多、功耗低、吞吐量大。AWS 的 Graviton、微软的 Cobalt 都属于这一类。

这种分化背后,是 AI 应用场景的多样化。训练模型需要前者,服务用户需要后者,而且后者的需求增长更快。

强化学习

除了智能体,还有一个被很多人忽视的需求来源:强化学习(RL)。

现在的大模型训练,越来越依赖强化学习来提升质量。但强化学习有个特点:模型生成一个动作后,需要有个“环境”来执行这个动作,然后给出反馈,告诉模型做得对不对。

这个环境就需要大量 CPU。比如训练一个编程模型,它生成一段代码后,你得用 CPU 去编译、运行、测试,看结果对不对。训练一个物理模拟模型,你得用 CPU 跑复杂的物理计算。

微软那个 48MW 的 CPU 集群,很大一部分就是干这个的。而且随着模型越来越复杂,这部分需求还在快速增长。未来一代 GPU可能需要更高的 CPU 功率配比,因为 GPU 的性能提升速度远快于 CPU。

竞争格局在重塑

CPU 市场重新热闹起来,各家的策略也开始分化。

AMD :现在势头最猛,它的 EPYC 处理器本来就在数据中心市场占优,现在又有完整的 GPU 产品线(MI300、MI450),可以做到 CPU、GPU、网络芯片的全栈优化。今年下半年要推出的 Helios 机架系统,就是把这些东西整合在一起,直接卖整套方案。这种垂直整合的打法,在功耗受限的数据中心里很有优势。

Intel :它的企业客户基础还在,但在 AI 数据中心这块一直没找到节奏。不过最近的需求爆发给了它机会,关键看能不能抓住。
Arm :它推出了专门针对智能体优化的 AGI 处理器,号称能效比是传统 CPU 的两倍。Meta 已经在测试了,Lenovo 也宣布要合作。

但 Arm 面临三个挑战:

第一,它以前只卖架构授权,现在要自己做芯片、搞量产,这是完全不同的游戏。良率、供应链、客户验证,每一步都是坑。
第二,它的客户很多本身就在用 Arm 架构做 CPU,比如 Ampere、AWS、微软。现在 Arm 自己下场做芯片,等于跟客户抢生意,这个生态关系很微妙。

第三,AMD 和 Intel 肯定不会坐以待毙。它们完全可以推出功耗优化版的 CPU 来对标 Arm,而且它们有成熟的生产和客户关系。

所以短期内(2-3 年), Arm 很难撼动现有格局。但如果它真的做出来了,对整个市场会是个不小的冲击。

至于大家最关心的国内公司,目前国内的AI服务器中(8卡机),基本还都是AMD/Intel的CPU,当然那个名字不能提的公司除外。虽然阿里云也买了很多国产CPU,但依然是给信创用的,跟这波Agent AI关系并不大。这波CPU的紧缺也给了国产CPU机会,看他们能不能抓住了。

举报本楼

本帖有 2 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2026-4-23 04:03 , Processed in 0.124082 second(s), 19 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部