通信人家园
标题:
CPU,为何“偷偷转型”?
[查看完整版帖子]
[打印本页]
时间:
2025-12-13 15:03
作者:
ttxx
标题:
CPU,为何“偷偷转型”?
Yole Group发布的《2025年处理器产业状况》报告确认了一个里程碑式的节点:2024年GPU销售额首次超越了CPU。这标志着半导体产业正式迈入了一个由加速计算主导的新周期。在这样一个宏观背景下,一个核心议题浮出水面:
当GPU、NPU以及ASIC这些“加速器”逐渐接管大规模并行计算任务时,传统的中央处理器会不会被边缘化?
或者说,它能在新的计算范式中找到不可替代的位置吗?
GenAI计算重心的转移并未消除对主机处理器的需求,但却彻底改变了对其性能指标的定义。过去三十年间,CPU主要依靠提升通用计算频率和推测执行效率来推动摩尔定律。然而,在面对万亿参数模型训练与实时推理的高吞吐量需求时,这种通用设计原则正遭遇能效比与I/O瓶颈的双重挑战。
行业正在重新审视CPU在AI集群里的位置。
过去,它只是个简单的逻辑控制器;现在,它正在演变成异构系统的调度中枢,不仅提供大容量内存,还直接负责特定的推理任务。这种转变不仅重构了底层技术架构,也在深刻影响着市场格局和资本流向,从数据中心一直延伸到边缘设备。
01CPU的困境与“转型”
在传统的以CPU为中心的计算架构中,数据处理流程通常由运行在CPU上的软件栈进行管理,数据需要在网络接口、CPU内存和深度学习加速器(DLA)之间进行多次搬运。这种基于软件的数据控制机制在面对AI工作负载时,显现出明显的效率缺陷。主要问题体现在
并行命令的冲突以及数据路径的拥塞
,这直接限制了后端加速器的利用率,导致昂贵的硬件资源处于等待状态,进而推高了系统的整体功耗与成本。
更为深层的技术矛盾,在于处理器微架构的设计哲学。
现代CPU普遍依赖“推测执行”技术,通过分支预测来提前执行指令以保持流水线满载
,这种机制在处理逻辑复杂的通用程序时表现优异。然而,AI和机器学习工作负载主要由大规模的向量和矩阵运算构成,且内存访问模式往往呈现出高度的不规则性。在这种场景下,
推测执行容易出现预测失败,导致流水线频繁刷新
。被丢弃的计算指令不仅未能产生有效产出,反而造成了额外的能源浪费与延迟。
针对通用架构在AI负载下的局限性,处理器行业正在经历
第一层维度的革新:微架构层面的去推测化。
近期获得美国专利商标局专利认证的“基于时间的确定性执行模型”代表了一种新的设计思路。该模型摒弃了复杂的推测机制,引入带有时间计数器的向量协处理器,采用静态调度策略。在这一架构下,指令仅在数据依赖关系完全解决且操作数就绪的确定时刻,才会被分发至执行单元。
由于执行顺序和时间是预先规划且确定的,芯片设计可以省去复杂的寄存器重命名和乱序执行控制逻辑,从而在矩阵计算等任务中以更低的晶体管开销和功耗实现高可扩展性。这种确定性执行模型在保持与RISC-V等标准指令集兼容的同时,从底层逻辑上适配了AI计算对高吞吐量和低延迟的刚性需求。
第二层维度的革新则是系统级架构的“专用化分流”
。为了解决I/O瓶颈,行业开始探索将网络排序、服务质量管理(QoS)及数据预处理功能从主机CPU的软件栈中剥离,下沉至专用的硬件逻辑中。这种被称为“网络附加处理单元”(NAPU)的设计理念,通过在处理器内部集成DSP核心、视频引擎及AI优化的网络接口,实现了数据路径的硬件加速。
这不仅释放了通用CPU核心的算力资源,使其能专注于复杂的逻辑调度,还大幅减少了数据在不同组件间的无效移动。此外,主流x86处理器也在通过集成AMX等专用加速指令集来进行自我进化,优化对bf16和int8等低精度数据类型的处理能力,从而在不依赖外部加速器的情况下,提升CPU自身处理矩阵运算的效率。
02AI 时代,CPU的应用场景
技术架构的演进直接映射在市场需求的结构性变化上。尽管训练端对GPU的需求持续高涨,但推理端市场正呈现出对成本和能效的敏感,这为新型CPU提供了广阔的市场空间。根据Future Market Insights预测,美国数据中心CPU需求将保持7.4%的复合年增长率。
这并非源于对传统通用算力的渴求,而是由AI应用落地过程中的实际“经济账”所逼出来的。
在推理场景中,并非所有任务都需要昂贵的GPU集群。对于大量参数量在7B至13B之间的中小模型,或者是单用户的实时交互请求,现代服务器CPU已经能够提供足够的吞吐量。英特尔的数据显示,双路服务器在运行特定参数规模的Llama模型时,可以达到满足实时阅读速度的Token生成率。
更为关键的是,根据亚信科技和Cast AI的统计,公有云环境中存在大量利用率低于20%的闲置CPU资源。
利用这些已部署的通用算力进行AI推理,相比额外采购专用加速器,具有显著的总拥有成本(TCO)优势。
因此,在长尾应用和非高并发场景下,CPU正在加入AI推理的主力军,这种“够用就好”的经济逻辑支撑了数据中心CPU市场的持续增长。
除了直接承担推理任务,
AI大模型对内存容量的渴求也重塑了CPU的市场价值。
随着模型参数量突破万亿级别,GPU的显存容量日益成为限制推理性能的瓶颈,显存溢出即意味着服务中断。在这一背景下,CPU的主内存通过CXL等高速互联技术与GPU共享,实际上充当了加速器的L4缓存。
在英伟达的GH/GB系列以及华为昇腾的超节点方案中,高性能CPU与其搭载的大容量DDR内存成为了支撑大模型稳定运行的关键基础设施。这意味着市场对服务器CPU的评价标准正在发生改变,内存通道数量、带宽以及与加速器的互联速度,成为了比核心频率更为关键的选型指标。
再把视野放宽到
边缘计算和终端设备
,市场对“异构协同”的需求已经超越了单一芯片的性能。在具身智能、智能终端这些领域,系统设计有严格的分工:CPU负责低延迟的逻辑控制和实时交互,GPU负责高并发计算,NPU处理持续运行的背景任务。
行业专家指出,在语音转文字、复杂逻辑调度及实时运动控制等场景中,CPU的响应速度优于需要批处理才能发挥效率的GPU。例如在机器人领域,x86 CPU凭借其在工业控制领域的软件生态积累,配合嵌入式GPU构成的主控方案,依然是主流选择。这种异构计算的市场趋势促使CPU必须具备更强的协同能力,能够高效地将特定负载卸载给NPU或GPU,同时保持对全局任务的精准调度。
03AI CPU,巨头与后起之秀
在技术转型和市场需求的双重驱动下,处理器产业的竞争格局正在重塑。
一方面,专注于AI专用架构的初创企业开始冒头;另一方面,传统巨头也在忙着调整战略,进行生态融合。
以色列芯片企业NeuReality就是专用化趋势的典型。该公司近期完成了3500万美元的A轮融资,总融资额达到4800万美元,其商业化目标直指AI推理服务器市场。NeuReality推出的NR1芯片实际上是对传统CPU架构的一次解构与重组,它被定义为“网络附加处理单元”(NAPU)。该芯片集成了Arm Neoverse核心,但其核心竞争力在于异构集成的十六个通用DSP核心、十六个音频DSP核心以及四个视频引擎。
通过这种硬件设计,NeuReality试图解决传统CPU在处理AI数据流时的瓶颈,将网络排序、数据排序及同步等任务固化在硬件中。其公开数据显示,相较于传统的CPU中心架构,NR1能够将AI应用的总拥有成本改善10倍。这种专用化芯片的出现,标志着市场开始接受不再由通用CPU主宰一切,而是由专用宿主处理器来管理AI流水线的理念。
与此同时,传统芯片巨头也在积极适应这一变化,通过资本运作与技术合作来巩固生态地位。2025年9月,英伟达宣布向英特尔投资50亿美元并开展基础设施合作,这一商业动作具有极强的信号意义。尽管英伟达在加速计算领域占据统治地位,但其对x86生态的巨额投资表明,在未来相当长的时间内,高性能x86 CPU作为异构集群的通用底座和生态入口,其战略价值依然不可撼动。这与其说是妥协,不如说是对现实的承认——再强大的GPU集群,也需要强大的CPU来调度。
在另一端,Arm架构正在服务器领域发起强有力的攻势。数据显示,Arm架构CPU在服务器市场的份额持续攀升,预计在2025年将占据全球服务器出货量的21.1%。这一增长不仅得益于AWS等云厂商自研Graviton系列芯片的推动,也离不开富士通等厂商在欧洲市场的布局。富士通与欧洲云服务商Scaleway达成的战略合作,旨在利用基于Arm架构的FUJITSU-MONAKA CPU平台构建高能效AI推理环境,这种方案避开了GPU算力的红海竞争,转而在绿色计算和低TCO推理领域寻找突破口。
然而,互联网大厂的实际部署策略也显示出市场的复杂性。尽管自研Arm芯片在成本上具有优势,但在核心的AI训练集群中,为了保证软件生态的绝对兼容性和稳定性,x86 CPU依然是首选配置。这表明,
未来的处理器市场将不再是单一架构的零和博弈,而是进入了x86与Arm并存、通用CPU与专用AI CPU互补、CPU与加速器深度协同的复杂生态阶段。
在这种格局下,CPU厂商的竞争力将不再单纯取决于核心数量或频率,而在于其架构是否足够开放,是否能高效地融入异构计算的流水线,以及是否能为日益多样化的AI负载提供最具经济效益的算力支持。
来源:36kr
通信人家园 (https://www.txrjy.com/)
Powered by C114