查看: 106|回复: 3

马斯克的xAI坐拥55万张英伟达GPU加速卡利用率仅11% [复制链接]

szlanjack

军衔等级：

中将

注册：2014-2-9 点赞数

2097

电梯直达

1^# 大中小

发表于 2026-5-8 13:47:50 |只看该作者 |倒序浏览

据外媒《The Information》获取的xAI内部备忘录显示，xAI公司总裁迈克尔·尼科尔斯（Michael Nicolls）向团队坦言，目前公司模型浮点运算利用率（MFU）约为11%。

这一数字背后的含义十分直观：理论上可输出100份训练算力的硬件，实际仅能产出11份，尼科尔斯在备忘录中直白评价其“低得尴尬”，并明确为团队设定了目标——未来几个月内将这一利用率拉升至50%。

据悉，xAI目前拥有约55万颗NVIDIA GPU，涵盖H100和H200系列。尽管这些GPU比最新的Blackwell产品落后了一个世代，但如此庞大的硬件部署规模，仍给市场留下了深刻印象。

需要指出的是，11%这个数字，并非指89%的GPU在完全闲置，而是衡量有效训练吞吐占硬件理论峰值算力比例的严苛指标。

与行业基准相比，xAI的表现差距尤为明显。当前，生产级大模型训练的MFU通常维持在35%至45%之间，其中Meta和谷歌凭借长期积累的深厚软件堆栈，其GPU利用率分别可达约43%和46%；

即便在以“低效”著称的GPT-3训练时期，MFU也能稳定在21%-26%之间。反观xAI的11%，不仅远低于当前行业主流水平，甚至不及AI算力发展史上的“古早”尴尬时期。

值得一提的是，坐拥顶级算力却难以发挥价值， xAI 症结不在硬件，而在软件短板。

据悉，xAI一直照搬英伟达标准部署方案，但软件堆栈、并行策略和模型工程优化，远远跟不上硬件激进扩张速度。

具体来看，HBM显存读取速度远慢于计算芯片，导致芯片大量时间空转等待数据；网络拓扑中的任何一处瓶颈，在数万张卡的同步要求下，都会被急剧放大。

此外，Lambda等机构分析指出，显存压力、过度的激活重计算和张量并行带来的跨GPU通信开销等，都是拖累MFU的系统性因素。

值得注意的是，xAI 基建扩张堪称行业奇迹，其Colossus 超算仅 122天建成，GPU规模短时间内极速扩容，过快的硬件铺摊，也放大了软件优化滞后的致命短板。

本主题由版主或管理员于 2026-5-8 13:56 审核通过

0 举报本楼

本帖有 3 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2026-5-10 03:04 , Processed in 0.149285 second(s), 17 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册

马斯克的xAI坐拥55万张英伟达GPU加速卡 利用率仅11% [复制链接]

马斯克的xAI坐拥55万张英伟达GPU加速卡利用率仅11% [复制链接]