通信人家园
标题: 英伟达Rubin CPX 的产业链逻辑 [查看完整版帖子] [打印本页]
时间: 2025-9-12 09:15
作者: 无聊小北
标题: 英伟达Rubin CPX 的产业链逻辑
猫叔 傅里叶的猫
AI 推理的两难困境
想明白 Rubin CPX 的价值,得先知道 AI 大模型推理时的一个关键矛盾:预填充(prefill)和解码(decode)这两个阶段,对硬件的需求完全是反的。
在我们之前的一次分析华为的Cloud Matrix 384中光模块用量的直播中,讲到过Prefill和Decode的区别:
在Prefill阶段特别吃计算能力,但对内存带宽的需求很低;而接下来的Decode,模型要基于第一个 token 不断生成后续内容,这时候就不怎么需要计算了,反而得靠高内存带宽快速调取之前的 KV 缓存数据。
过去的问题是,大家都用同一种 GPU(比如英伟达的 R200)跑这两个阶段。结果在跑预填充时,R200 上那些昂贵的 HBM 内存(高带宽、高成本)根本用不上,带宽利用率较低,相当于花大价钱买了个顶配跑车,结果只用来买菜;跑解码时,又觉得计算能力过剩,内存带宽不够用。这种通用的硬件方案,不仅浪费钱,还拖慢了整体效率。
英伟达显然看透了这点,于是 Rubin CPX 来了, 一款专门为预填充阶段量身定做的加速器,目标只有一个:把该省的钱省下来,该用的性能拉满。
Rubin CPX配置的精打细算
先看核心参数,跟R200的差距不小,不仅HBM换成了GDDR7,显存的容量、带宽都显著降低,还有个明显的区别就是NVLink换成了PCIe Gen6,所以serdes的速率也从224G降到到了64G。
(感谢星球中球友的提醒,上面这个图中的某些参数是不对的,不知道大家有没有看出来)
虽然性能下降了很多,但性价比却提到了--成本降低了更多。
Rubin CPX 的 BOM 成本(物料清单成本)只有 R200 的 25%,但能提供 R200 60% 的计算能力。
HBM 内存因为带宽高,一直是高端 GPU 的标配,但价格也贵得离谱,占 GPU BOM 成本的比例越来越高(从 A100 的 35% 涨到 GB300 的 51%)。而 Rubin CPX 用的 GDDR7,虽然带宽不如 HBM4,但成本直接砍了 80%,还不用像 R200 那样搞复杂的 CoWoS 封装,这两下一省,成本自然就下来了。
更重要的是,它没浪费性能。前面说过,预填充阶段内存带宽利用率极低,而 Rubin CPX 因为带宽刚好够用,利用率反而提高了很多。同样跑一个预填充任务,R200 每小时要浪费 0.9 美元的 TCO(总拥有成本),而 Rubin CPX 只浪费 0.16 美元 —— 长期下来,对数据中心来说就是一笔巨款。
Oberon 机架
光有好芯片还不够,英伟达这次连机架都一起升级了 —— 推出第三代 Oberon 架构机架(叫 Vera Rubin 系列),包含三种型号:VR200 NVL144、VR200 NVL144 CPX、Vera Rubin CPX 双机架。这次的机架解决了前两代(GB200/GB300)的几大痛点。
1. 无电缆设计
之前的 GB200 机架用的是电缆 + PCB的连接方式,飞线又多又乱,装配时容易坏,还占空间,导致每个计算托盘里塞不下太多芯片。这次 Rubin 系列直接搞了无电缆设计:用 Amphenol 的板对板连接器,配合中间的 PCB 中板,所有信号都走电路板,没有一根飞线。
好处很明显:一是故障点少了,可靠性提升;二是空间省出来了。比如 VR200 NVL144 CPX 机架,每个计算托盘里能塞 4 个 R200 GPU + 8 个 Rubin CPX + 2 个 Vera CPU,整个机架算下来有 396 个计算和网络芯片,密度比前两代高了一大截。
2. 全液冷方案
AI 芯片越密集,散热就越头疼。前两代机架是85% 液冷 + 15% 风冷,对付低功率还行,但这次 VR200 NVL144 CPX 机架的功率预算直接冲到了 370kW(相当于 200 多台家用空调的功率),风冷根本扛不住。
于是英伟达干脆上了100% 全液冷,还搞了个三明治设计:把 Rubin CPX 和 CX-9 网卡的 PCB 板叠在一起,中间夹一个共享的液冷冷板,两边的热量都能快速导走。这样一来,即使每个计算托盘里的芯片总功率到 7040W,也能稳稳压住,不会因为过热降频。
3. 灵活扩展
如果已经买了之前的 VR200 NVL144 机架,不想全换怎么办?英伟达给了Vera Rubin CPX 双机架方案 —— 你可以单独加一个 VR CPX 机架(里面全是 Rubin CPX),通过 InfiniBand 或以太网连到原有集群里,不用非得挨着放。这样就能根据自己的业务需求,灵活调整预填充和解码的比例,比如业务里预填充任务多,就多加点 CPX 机架,非常方便。
行业震动
英伟达这波操作,最慌的应该是 AMD、谷歌、AWS 这些竞争对手。SemiAnalysis的报告中的说法是:英伟达和对手的差距,已经从鸿沟变成峡谷了。
先看 AMD,之前 AMD 刚发布 MI400 机架,号称内存带宽 19.8TB/s,能和英伟达掰掰手腕,结果英伟达反手就把 R200 的内存带宽提到 20.5TB/s,还出了 Rubin CPX。现在 AMD 不仅要继续优化 MI400 的软件栈,还得紧急加钱开发自己的预填充专用芯片,可能之前的规划的Roadmap都要打乱了。
再看谷歌和 AWS。谷歌的 TPU 虽然有 3D Torus 网络的优势(最大能搞 9216 个 TPU 的大集群),但现在也得赶紧开发预填充专用芯片,不然内部用起来成本太高;AWS 的 Trainium3 机架,原本想用自己的 EFA 网卡,结果发现 VR200 NVL144 CPX 机架里根本没地方放,只能计划搞个「EFA 侧机架」,再用 PCIe 交换机连起来,麻烦又费钱。
最惨的是那些做定制 ASIC 芯片的公司 ,本来就比英伟达慢一步,现在英伟达又在硬件专用化上开了头,这些公司要么跟着做预填充、解码专用芯片,要么就只能在成本上被英伟达压着打
未来
报告里还提到了两个未来的可能性,挺有意思:
1. 解码专用芯片
既然预填充能做专用芯片,解码为什么不行?SA推测,英伟达可能会搞一款解码专用芯片—— 跟 Rubin CPX 反过来,少点计算能力,多堆内存带宽。比如把 R200 的计算芯片缩小,保留 HBM 接口和 I/O 芯片,这样成本能再降一波,而且能效会更高。
2. GDDR7 的春天
Rubin CPX 用了 GDDR7,加上之前 RTX Pro 6000 也用,GDDR7 的需求会暴涨。SA认为,三星因为产能充足,已经拿到了英伟达的大订单,而 SK 海力士和美光因为忙着生产 HBM,没太多产能做 GDDR7,所以接下来三星在 GDDR7 市场可能会赚一波。
产业链的逻辑
VR NVL144 CPX Compute Tray长下面这个样子:
下面是英伟达官方图中标出的重要组建::
PCB
首先就是多出来一些CPX的板卡,当然PCB的用量也会上去。
而且从上面SemiAnalysis的图中也可以看出,在VR200中,将采用通过midplane实现内部“无电缆设计”。在GB200中,CX7 直接放置在 Bianca 板之上,并用线缆连接 BlueField 与 OSFP cages,而VR200 用midplane取代tray内部线缆,以连接 Bianca board、CX9 与 BlueField。
对VR200 来说,根据目前业内给的数据,仅供参考。预计每个 NVL144 需要 18 个midplane(每个compute tray一个),很有可能midplane将用44层 PTH PCB,采用台光的 896K3 M9 CCL,Switch则采用 896K2(low-DK 2+HVLP 4)。
预计英伟达每 GPU 的 PCB 价值量将从GB200 的约 400 美元提升至 VR200 的约 900 美元。
液冷
我们上面也提到液冷的方案,现在还没法测算具体的价值量。但可以明确的是,每增加一颗CPX芯片,都需要配一块冷板,同时还会拉动转接头的需求,而且随着机柜功率的提升,CDU和管路的需求也同步增加。
附件: 640?wx_fmt=png&from=appmsg&watermark=1#imgIndex=0 (2025-9-12 09:14, 269.18 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzAxNTcyfDU3MWRhNGNlfDE3NTc2NzU0NTZ8MHww
附件: 640?wx_fmt=png&from=appmsg&watermark=1#imgIndex=1 (2025-9-12 09:14, 281.15 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzAxNTczfDgxNDVmNmQ5fDE3NTc2NzU0NTZ8MHww
附件: 640?wx_fmt=png&from=appmsg&watermark=1#imgIndex=2 (2025-9-12 09:14, 195.3 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzAxNTc0fGNmNjQzYTVkfDE3NTc2NzU0NTZ8MHww
附件: 640?wx_fmt=png&from=appmsg&watermark=1#imgIndex=3 (2025-9-12 09:14, 207.2 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzAxNTc1fDZkZDg2NTQ2fDE3NTc2NzU0NTZ8MHww
附件: 640?wx_fmt=jpeg&watermark=1#imgIndex=4 (2025-9-12 09:14, 49.16 KB) / 下载次数 0
https://www.txrjy.com/forum.php?mod=attachment&aid=NzAxNTc2fDAzMzQ4OGYzfDE3NTc2NzU0NTZ8MHww
时间: 2025-9-12 09:28
作者: mao_mao
AI算力机房重点方向
时间: 2025-9-12 10:44
作者: shabbyju
机架无电缆设计真挺聪明的,Amphenol连接器+PCB中板不仅省空间,故障率还能降下来,运维成本估计能少一大截。
时间: 2025-9-12 15:54
作者: 不吹不黑
小北你好哈
通信人家园 (https://www.txrjy.com/) |
Powered by C114 |