梦想的第四维
一、NVIDIA CPO技术的整体规划
终极构想
将AI server racks做成OIO全光互联,让rack内GPU芯片和switch芯片均采用CPO封装为光口,通过光纤互联省去光电转换步骤。
落地策略
因一步实现OIO racks难度大,采取循序渐进方式,第一步推出Scale-Out网络的CPO交换机,第二步在Scale-Up网络的NV Switch tray中采用CPO交换机,第三步在GPGPU芯片上采用CPO封装,最终实现OIO全光互联。
备选方案
2027年Rubin Ultra rack有CPO方案和正交背板方案两种选择,CPO方案组装难度低但生产良率低,正交背板方案则相反,最终选择取决于届时的供应链成熟度和生产良率水平。
二、Rubin Ultra racks的Scale-Up CPO方案核心参数与测算
该方案采用NVL72x2形式,相邻机柜NV Switch trays通过CPO光引擎和光纤互联,构成含144张GPGPU卡(576颗GPU die)的机柜,核心硬件与数量测算如下表:
指标 |
具体数值
|
单Rubin Ultra GPGPU单卡单向带宽
|
28.8Tb/s
|
整机柜总带宽
|
4147.2Tb/s
|
数据交换收敛比
|
2:1
|
单光引擎(OE)带宽
|
3.2Tb/s
|
单NV Switch芯片配套光引擎数
|
4.5颗
|
单NV Switch芯片交换能力
|
14.4T(3.2T×4.5)
|
单NV Switch tray含NV Switch芯片数
|
6颗
|
单NV Switch tray交换能力
|
86.4T(14.4T×6)
|
Scale-Up环节光引擎数量
|
648颗
|
Scale-Out环节光引擎数量
|
144颗
|
整机柜NV Switch芯片数量
|
144颗
|
整机柜NV Switch trays数量
|
24个(每机柜12排)
|
光引擎与GPGPU数量比
|
5.5:1((648+144)/144)
|
此外,该机柜BackendScale-Out网络也采用CPO,computetray中每张CX10网卡合封1颗3.2T光引擎,每个computetray含4张CX10网卡,整机柜共144张CPO版本CX10网卡。
三、CPO技术核心痛点及NVIDIA的解决方案
核心痛点
CPO switch的光引擎与switch芯片封装在一起,光引擎故障会导致昂贵的switch芯片整体报废,即service ability challenge。
解决方案
NVIDIA采用可拆卸式设计,QuantumX800CPOswitch的芯片为chiplet架构(6颗Bantha小芯片,每颗含3颗Sagitta光引擎),且Bantha芯片底部装socket;Rubin Ultra racks的CPO版NV Switch芯片也为光引擎底部装socket,支持故障光引擎的拆卸更换,类似可插拔式光模块。
四、CPO方案核心受益企业及营收测算
嘉泽端子
台湾企业,CPO光引擎socket独家供应商;假设socketASP为7.5美元(5~10美元中值),2027/2028年RubinUltra产量为200万/600万张,测算得2027年额外营收8250万美元(占去年营收8%),2028年2.475亿美元(占去年营收25%)。
泰瑞达
美国企业,其Ultra FLEX Plustester+FiconTEC prober组合方案是唯一通过NVIDIACPO测试机台验证的方案,也是特斯拉AI5/6芯片的独家tester供应商;假设组合机台ASP2027年为500万美元、2028年因量大降至400万美元,单台每年可测5万个光引擎,测算得2027年额外营收11亿美元(占去年营收35%),2028年18亿美元(占去年营收57%)。
Mipox
日本小众企业,全球最大高速光纤插芯抛光膜制造商,市占率~60%;其光纤插芯抛光膜营收过去三年稳步上涨,虽受Coating&slitting services部门拖累,但该业务业绩已触底,无更多负面冲击。
Seikoh Giken
日本小众企业,全球最大光纤插芯抛光机/断面检查机制造商,两类设备市占率均~60%;其光纤插芯相关设备新增订单金额过去三年快速上涨,受益于全球数据中心光纤需求爆发。
五、CPO测试与光纤配套核心技术
CPO测试机台
NVIDIA的CPO光引擎为EIC与PIC异面堆叠架构,测试难度大;FiconTEC提供唯一的双面晶圆测试解决方案,可同时从晶圆上下两面做电学+光学检测,还具备5纳米步进精度、高重复性、PWB探针技术、激光微调+在线清洁技术等核心优势,泰瑞达负责整合其prober并交付台积电。
光纤配套技术
CPO光引擎的FAU采用带MT插芯的MPO光纤,MT插芯是MPO/MTP连接器关键部件,可实现多芯光纤高密度低损耗连接;该插芯投入使用前需经过3~4遍抛光工艺,确保光纤头部表面平整以减少信号损耗,Mipox和Seikoh Giken分别为抛光材料和设备的核心供应商。
六、关键问答
问:NVIDIA为实现OIO全光互联规划的CPO技术落地三步法具体是什么?
答:NVIDIA因一步实现OIO全光互联的AI server racks工程难度大,规划了循序渐进的三步落地法:第一步是推出用于Scale-Out网络的CPO交换机;第二步是在Scale-Up网络的NV Switch tray中采用CPO交换机;第三步是在其GPGPU芯片上采用CPO封装,最终达成OIO全光互联的AI server racks形式。
问:NVIDIA Rubin Ultra racks的CPO方案中,光引擎与GPGPU的数量比为5.5:1是如何测算得出的? 答:该比例由Scale-Up和Scale-Out两个环节的光引擎总数除以整机柜的GPGPU数量得出;其中Scale-Up环节需648个光引擎,Scale-Out环节需144个光引擎,光引擎总数为648+144=792个,而Rubin Ultra racks整机柜含144张GPGPU卡,792÷144=5.5,因此光引擎与GPGPU之比为5.5:1。
问:泰瑞达成为NVIDIACPO方案核心受益企业的核心原因是什么,其还具备哪些额外的业务增长动能? 答:核心原因:一是泰瑞达的Ultra FLEX Plustester与FiconTEC的prober组合方案,是五家供应商/两种设备方案中唯一通过NVIDIACPO测试机台验证的方案,且NVIDIA CPO光引擎的异面架构对测试机台要求极高,FiconTEC的双面晶圆测试方案具备不可替代性,泰瑞达负责整合交付;二是该组合机台单台价值量高,且Rubin Ultra racks对光引擎的需求规模大,为泰瑞达带来显著的营收增量。
额外增长动能:泰瑞达成为特斯拉AI5和AI6芯片的独家tester供应商,而特斯拉这两款AI芯片用量极大,将应用于自动驾驶和人形机器人领域,有望成为泰瑞达2027/2028年的另一核心增长引擎。
|