英伟达Rubin CPX 的产业链逻辑 - 通信人家园

时间: 2025-9-12 09:15

作者: 无聊小北 标题: 英伟达Rubin CPX 的产业链逻辑

想明白 Rubin CPX 的价值，得先知道 AI 大模型推理时的一个关键矛盾：预填充（prefill）和解码（decode）这两个阶段，对硬件的需求完全是反的。

在我们之前的一次分析华为的Cloud Matrix 384中光模块用量的直播中，讲到过Prefill和Decode的区别：

在Prefill阶段特别吃计算能力，但对内存带宽的需求很低；而接下来的Decode，模型要基于第一个 token 不断生成后续内容，这时候就不怎么需要计算了，反而得靠高内存带宽快速调取之前的 KV 缓存数据。

过去的问题是，大家都用同一种 GPU（比如英伟达的 R200）跑这两个阶段。结果在跑预填充时，R200 上那些昂贵的 HBM 内存（高带宽、高成本）根本用不上，带宽利用率较低，相当于花大价钱买了个顶配跑车，结果只用来买菜；跑解码时，又觉得计算能力过剩，内存带宽不够用。这种通用的硬件方案，不仅浪费钱，还拖慢了整体效率。

英伟达显然看透了这点，于是 Rubin CPX 来了，一款专门为预填充阶段量身定做的加速器，目标只有一个：把该省的钱省下来，该用的性能拉满。

先看核心参数，跟R200的差距不小，不仅HBM换成了GDDR7，显存的容量、带宽都显著降低，还有个明显的区别就是NVLink换成了PCIe Gen6，所以serdes的速率也从224G降到到了64G。

（感谢星球中球友的提醒，上面这个图中的某些参数是不对的，不知道大家有没有看出来）

Rubin CPX 的 BOM 成本（物料清单成本）只有 R200 的 25%，但能提供 R200 60% 的计算能力。

HBM 内存因为带宽高，一直是高端 GPU 的标配，但价格也贵得离谱，占 GPU BOM 成本的比例越来越高（从 A100 的 35% 涨到 GB300 的 51%）。而 Rubin CPX 用的 GDDR7，虽然带宽不如 HBM4，但成本直接砍了 80%，还不用像 R200 那样搞复杂的 CoWoS 封装，这两下一省，成本自然就下来了。

更重要的是，它没浪费性能。前面说过，预填充阶段内存带宽利用率极低，而 Rubin CPX 因为带宽刚好够用，利用率反而提高了很多。同样跑一个预填充任务，R200 每小时要浪费 0.9 美元的 TCO（总拥有成本），而 Rubin CPX 只浪费 0.16 美元 —— 长期下来，对数据中心来说就是一笔巨款。

光有好芯片还不够，英伟达这次连机架都一起升级了 —— 推出第三代 Oberon 架构机架（叫 Vera Rubin 系列），包含三种型号：VR200 NVL144、VR200 NVL144 CPX、Vera Rubin CPX 双机架。这次的机架解决了前两代（GB200/GB300）的几大痛点。

之前的 GB200 机架用的是电缆 + PCB的连接方式，飞线又多又乱，装配时容易坏，还占空间，导致每个计算托盘里塞不下太多芯片。这次 Rubin 系列直接搞了无电缆设计：用 Amphenol 的板对板连接器，配合中间的 PCB 中板，所有信号都走电路板，没有一根飞线。

好处很明显：一是故障点少了，可靠性提升；二是空间省出来了。比如 VR200 NVL144 CPX 机架，每个计算托盘里能塞 4 个 R200 GPU + 8 个 Rubin CPX + 2 个 Vera CPU，整个机架算下来有 396 个计算和网络芯片，密度比前两代高了一大截。

AI 芯片越密集，散热就越头疼。前两代机架是85% 液冷 + 15% 风冷，对付低功率还行，但这次 VR200 NVL144 CPX 机架的功率预算直接冲到了 370kW（相当于 200 多台家用空调的功率），风冷根本扛不住。

于是英伟达干脆上了100% 全液冷，还搞了个三明治设计：把 Rubin CPX 和 CX-9 网卡的 PCB 板叠在一起，中间夹一个共享的液冷冷板，两边的热量都能快速导走。这样一来，即使每个计算托盘里的芯片总功率到 7040W，也能稳稳压住，不会因为过热降频。

如果已经买了之前的 VR200 NVL144 机架，不想全换怎么办？英伟达给了Vera Rubin CPX 双机架方案 —— 你可以单独加一个 VR CPX 机架（里面全是 Rubin CPX），通过 InfiniBand 或以太网连到原有集群里，不用非得挨着放。这样就能根据自己的业务需求，灵活调整预填充和解码的比例，比如业务里预填充任务多，就多加点 CPX 机架，非常方便。

英伟达这波操作，最慌的应该是 AMD、谷歌、AWS 这些竞争对手。SemiAnalysis的报告中的说法是：英伟达和对手的差距，已经从鸿沟变成峡谷了。

先看 AMD，之前 AMD 刚发布 MI400 机架，号称内存带宽 19.8TB/s，能和英伟达掰掰手腕，结果英伟达反手就把 R200 的内存带宽提到 20.5TB/s，还出了 Rubin CPX。现在 AMD 不仅要继续优化 MI400 的软件栈，还得紧急加钱开发自己的预填充专用芯片，可能之前的规划的Roadmap都要打乱了。

再看谷歌和 AWS。谷歌的 TPU 虽然有 3D Torus 网络的优势（最大能搞 9216 个 TPU 的大集群），但现在也得赶紧开发预填充专用芯片，不然内部用起来成本太高；AWS 的 Trainium3 机架，原本想用自己的 EFA 网卡，结果发现 VR200 NVL144 CPX 机架里根本没地方放，只能计划搞个「EFA 侧机架」，再用 PCIe 交换机连起来，麻烦又费钱。

最惨的是那些做定制 ASIC 芯片的公司，本来就比英伟达慢一步，现在英伟达又在硬件专用化上开了头，这些公司要么跟着做预填充、解码专用芯片，要么就只能在成本上被英伟达压着打

既然预填充能做专用芯片，解码为什么不行？SA推测，英伟达可能会搞一款解码专用芯片—— 跟 Rubin CPX 反过来，少点计算能力，多堆内存带宽。比如把 R200 的计算芯片缩小，保留 HBM 接口和 I/O 芯片，这样成本能再降一波，而且能效会更高。

Rubin CPX 用了 GDDR7，加上之前 RTX Pro 6000 也用，GDDR7 的需求会暴涨。SA认为，三星因为产能充足，已经拿到了英伟达的大订单，而 SK 海力士和美光因为忙着生产 HBM，没太多产能做 GDDR7，所以接下来三星在 GDDR7 市场可能会赚一波。

而且从上面SemiAnalysis的图中也可以看出，在VR200中，将采用通过midplane实现内部“无电缆设计”。在GB200中，CX7 直接放置在 Bianca 板之上，并用线缆连接 BlueField 与 OSFP cages，而VR200 用midplane取代tray内部线缆，以连接 Bianca board、CX9 与 BlueField。

对VR200 来说，根据目前业内给的数据，仅供参考。预计每个 NVL144 需要 18 个midplane（每个compute tray一个），很有可能midplane将用44层 PTH PCB，采用台光的 896K3 M9 CCL，Switch则采用 896K2（low-DK 2+HVLP 4）。

预计英伟达每 GPU 的 PCB 价值量将从GB200 的约 400 美元提升至 VR200 的约 900 美元。

我们上面也提到液冷的方案，现在还没法测算具体的价值量。但可以明确的是，每增加一颗CPX芯片，都需要配一块冷板，同时还会拉动转接头的需求，而且随着机柜功率的提升，CDU和管路的需求也同步增加。