半导体行业观察
随着人工智能集群规模的不断扩大,它们开始使用光互连来实现横向扩展连接。然而,它们可能很快就会需要使用光互连来实现纵向扩展连接。为了应对这一挑战,超大规模数据中心运营商微软、Meta 和 OpenAI与硬件设计公司 AMD、博通和英伟达合作,共同开发了一种与协议无关的、适用于人工智能集群的纵向扩展互连技术。
为此,本周这些公司成立了光计算互连(OCI:optical compute interconnect)多源协议(MSA:Multi-Source Agreement )小组,旨在为大型人工智能系统和机架内部的扩展互连定义一个开放的光连接规范,使超大规模数据中心能够使用光缆而非铜缆,以高速和可预测的功耗连接更多加速器。实际上,这意味着该联盟将开发一个通用的光物理层(PHY)和统一的组件,以支持各种协议,例如AMD和博通的UALink协议以及英伟达的NVLink协议。
用于人工智能机架和扩展集群的短距离光链路的OCI连接技术将定义一个基于NRZ信令和波分复用(WDM)的通用物理层(PHY),初始配置为4个波长×50 Gb/s(单向200 Gb/s),并最终扩展至每根光纤800 Gb/s。随着生态系统的发展,该技术路线图预计将扩展波长数量和信令速率,目标是每根光纤3.2 Tb/s及更高。该技术将支持可插拔光模块、板载光器件以及直接与计算芯片集成的共封装光器件(CPO)。
通用光层将使不同的处理器和互连协议能够在同一光纤基础设施和来自不同供应商的交换机上运行,从而确保超大规模数据中心运营商的灵活性,同时保留人工智能加速器、人工智能GPU、XPU和其他处理器开发商所用协议的竞争优势。此外,标准化的OCI路线图旨在简化系统集成、降低开发风险并缩短新一代人工智能硬件的部署周期。
虽然 OCI MSA 组织由 AMD、博通和微软领导,而这三家公司都是开放行业标准的知名支持者,但这显然不是像 Ultra Ethernet Consortium 或 UALink Consortium 那样的传统标准组织,因此不会对该技术的发展方式产生影响。
旨在创建人工智能基础设施的开放规范
光计算互连(OCI)多源协议(MSA)组织今日宣布成立,创始成员包括AMD、博通、Meta、微软、英伟达和OpenAI。该行业联盟标志着向超大规模数据中心驱动的开放生态系统迈出了关键一步,旨在构建用于光互连的多元化供应链。通过统一采用开放规范,OCI MSA成员正在推动构建一个强大的光生态系统,确保未来人工智能互连能够以灵活的多供应商基础架构为基础,满足现代人工智能基础设施的光互连需求。
随着大型语言模型(LLM)向超级智能发展,传统的铜缆互连在物理传输距离上已接近极限,这影响了人工智能集群的规模化架构。OCI 将实现从铜缆架构向光纤架构的迁移,从而缓解铜缆互连的瓶颈。
OCI规范旨在优化功耗、延迟和成本。它结合了不归零(NRZ)调制和波分复用(WDM)光技术,并将连接模式从以模块为中心转变为以芯片为中心。通过实现光器件与计算和网络芯片的更紧密集成,OCI在满足传统铜缆连接严苛的功耗目标的同时,显著提升了带宽密度和系统可扩展性。
通过建立可互操作的光接口协议,OCI MSA 实现了“即插即用”的生态系统。这一开放且可互操作的规范使超大规模数据中心能够通过通用的光物理层 (PHY) 解耦任何顶级处理器单元 (XPU) 引擎和顶级纵向扩展交换机,从而确保一流的计算能力与最先进的光学技术相匹配。
标准化的路线图可以显著降低集成风险,缩短开发周期,并为整个 AI 机架供应链提供一条清晰、无风险的多代、多厂商光互连部署路径。
统一技术路线图
OCI MSA 为整个 AI 机架供应链提供了一个可扩展的开放规范路线图,支持跨多代硬件的多厂商光 PHY 和互连部署:
标准化高密度接口:推广 OCI GEN1 4λ x 50Gbps NRZ(200Gbps/方向)和 OCI GEN2 400Gbps/方向双向 (BiDi) 技术,每根光纤最高可达 800Gbps。
大规模可扩展性:一份扩展波长数量和数据速率的路线图,目标是将每根光纤的传输速率提升至 3.2Tbps 及以上。这将使扩展域能够通过更高的 GPU 数量和更高的单 GPU 带宽来实现。
可互操作外形尺寸:支持可插拔、板载和共封装光学器件 (CPO)。
规模化效率:使光纤解决方案能够满足以前只有铜缆连接才能达到的苛刻的性能、功耗和成本目标,同时提供更远的传输距离。
高管视角
AMD技术与工程高级副总裁Brian Amick表示: “未来十年后期,为了支持大型人工智能系统,对光互连技术的需求日益增长,这一点显而易见。AMD是OCI MSA的创始成员和坚定支持者,该协议为业界制定了开放规范,旨在促进一个强大的、多厂商的光互连生态系统的发展。”
博通公司光系统事业部副总裁兼总经理Near Margalit表示: “博通很荣幸能够利用我们多代CPO平台和行业合作伙伴关系来推动OCI规范的发展。OCI -MSA能够与现有的基于SerDes的ASIC无缝集成,同时为直接集成ASIC提供了清晰的路径,从而确保生态系统保持灵活性和高性能。”
Meta硬件系统副总裁Dan Rabinovitsj表示: “解决人工智能集群设计中功耗和成本限制的技术需求真实存在且迫在眉睫。我们鼓励采用OCI协议,以将高性能人工智能集群中对更大规模扩展域的需求与电气背板的限制解耦。”
微软Azure系统与架构企业副总裁Saurabh Dighe表示: “扩展专用光技术、协议和交换机架构是构建可扩展、多机架、高性能AI计算域的基础。OCI MSA通过前瞻性的物理层规范推进了这一愿景,为开放标准、差异化实现和系统架构创新奠定了基础。”
NVIDIA网络高级副总裁Gilad Shainer表示: “NVIDIA是OCI MSA的创始成员,旨在为全球人工智能基础设施建立通用的光学标准。通过将一流的计算能力与最先进的光学器件相结合,OCI MSA能够提供下一代超级智能所需的规模和性能。”
OpenAI硬件主管Richard Ho表示: “人工智能的持续进步依赖于人工智能超级计算机的扩展,需要更高的千万亿次浮点运算能力、更大的内存带宽,以及更重要的,在更大范围内更大的网络带宽,从而实现更广泛的覆盖。OCI MSA对于帮助业界构建人工智能系统至关重要,而这些系统将最终实现通用人工智能(AGI)。”
OCI技术规范速读
本次的标准定义了光计算互连(OCI)物理层线路侧光接口的技术规范。OCI旨在利用级联微环谐振器(MRR:micro-ring resonators)的密集波分复用(DWDM:dense wavelength-divisionmultiplexing )波长栅格,为人工智能(AI)后端网络光互连提供低功耗、高密度解决方案。
图 1 显示了不同 OCI 实现方式的横截面视图。
OCI线路侧接口基于粗波分复用(CWDM:coarse wavelength-division multiplexing)网格中紧密排列的DWDM信道组。为了降低AI规模化应用领域中光纤连接性和密度方面的挑战,每根光纤都支持双向链路,发送和接收信号在同一根光纤上反向传播。发送和接收信号使用不同的CWDM波段。因此,定义了A和B两组波长,其中A/B组波长用于发送,B/A组波长用于接收,这对于A/B型收发器而言如图2所示。需要注意的是,本规范并未严格要求OCI收发器在物理实现上必须对称,即两端都使用A型和B型收发器。外部激光源(ELS:external laser source)为A组和B组发射器提供调制所需的光。
物理编码子层 (PCS:Physical Coding Sublayer) 位映射和物理介质连接 (PMA:PhysicalMedium Attachment) 子层
图 1-1 显示了 OCI PMA 和物理介质相关 (PMD:physical medium dependent ) 子层与 IEEE 802.3 PCS 和 PMA 子层以及其他以太网子层之间的关系。
OCI PMA 与 200GBASE-R 8:1 SM-PMA、400GBASE-R 16:2 SM-PMA、800GBASE-R 32:4 SM-PMA 和 1.6TBASE-R 16:8 SM-PMA 接口。 OCI PMA m:n 具有变量 m 和 n,分别表示每个 PMA 的输入通道数和输出通道数,其中:
200G OCI 1:4 PMA 的 m 为 1,n 为 4 400G OCI 2:8 PMA 的 m 为 2,n 为 8 800G OCI 4:16 PMA 的 m 为 4,n 为 16 1.6T OCI 8:32 PMA 的 m 为 8,n 为 32
如图 1-2 阴影框所示,在发送(解复用:demultiplexing)方向上,m:n PMA 将 m 个 212.5 Gbps 串行流解复用到 PMA 下方业务接口的 n 个 53.125 Gbps PMAL。在接收(复用:multiplexing)方向上,m:n PMA 将 PMA 下方业务接口处的 n 个 53.125 Gbps PMAL 复用为 m 个 212.5 Gbps PCSL,并发送到 PMA 业务接口。
OCI PMD 使用 4 个波长上的 53.125 Gbaud 不归零 (NRZ) 调制来传输 212.5 Gbps 的串行数据流。每次建立链路时,OCI-PMD 都会对这 4 个 NRZ 模式进行去斜校正。
一、去斜(Deskew)状态图描述
图 1-3 和表 1-1、1-2 和 1-3 展示了状态机的要求,该状态机用于重新对齐每个 212.5 Gbps 通道内 4 个光通道的接收数据位,以消除光纤色散或其他因素可能引入的通道间偏差。此去斜过程在硬件层面进行,在接收数据向上传递到协议栈之前完成。由于使用的是双向链路,链路的两端在硬件初始化后都会启动此过程。去斜状态机将无限期地保持激活状态。
Deskew_Data_Relink 状态会抑制每个 212.5 Gbps 通道内四个 NRZ 发射通道的调制(但不抑制平均功率),以便向双向链路的另一端发出信号,使其也开始去斜过程。在应用 TX 静噪功能并设置 relink_squelch_tx_duration 参数(参见表 1-3)后,212.5 Gbps 通道内的所有 4 个发射器开始发送表 1-1 中的 160 位斜角校正训练模式。请注意,表 1-1 和表 1-2 中的所有模式均相同,仅在第 23 位和第 16 位有所不同。表 1-1 和表 1-2 中的“数据通道”列指的是每个通道的相对波长,其中 0 表示最短波长。根据具体实现,物理通道编号可能与这些波长索引不对应。
Deskew_Data_Detect 状态会等待接收到的数据与训练模式匹配,然后才会进入 Deskew_Data_Sync 状态。如果在超过 timeout_data_detect 参数(表 1-3)的时间后仍未检测到训练模式,则返回 Deskew_Data_Relink 状态。请注意,模式识别机制应在高达 1E-4 的误码率 (BER) 下正常工作,并能够成功识别模式的存在。
Deskew_Data_Sync 状态计算 4 个接收信道之间的整数单位间隔比特时序偏差,并应用硬件延迟来重新对齐 160 位模式。例如,这可以通过在每个信道的相位先进先出 (FIFO) 之后插入数字延迟来实现。这样,最早到达的信道数据就可以延迟到与最晚到达的数据匹配。调整范围必须补偿最早到达和最晚到达的 53.125 Gbps NRZ 信道数据之间 0 到 7 个单位间隔的相对延迟。
这提供了足够的范围来补偿光纤中的色散以及信道之间的电延迟失配。请注意,模式偏差识别机制应在高达 1E-4 的误码率 (BER) 下正常工作,并能够成功识别模式的存在以及信道之间的偏差。即使存在链路损伤(例如多径干扰 (MPI) 和反向反射),倾斜模式检测也必须保持鲁棒性。如果超过 timeout_data_sync 时间(表 1-3)仍未计算并应用所需的延迟,则返回 Deskew_Data_Relink 状态。
Deskew_Data_Validate 状态必须确保表 1-1 中的校正训练模式已应用至少表 1-3 中规定的 duration_to_transmit_training_pattern 时间限制。时间过后,开始在 212.5 Gbps 通道内的所有 4 个通道发射器上发送表 1-2 中的 160 位校正释放模式。模式切换必须相位连续且无毛刺,以避免链路接收器的 CDR 丢失锁定(否则可能导致校正失效)。发射器模式切换后,开始等待接收数据与表 1-2 中的释放模式匹配。请注意,模式识别机制应在误码率高达 1E-4 的情况下正常工作,并能够成功识别模式的存在。
如果发送释放模式的时间超过 timeout_data_validate(表 1-3)且未识别出正确对齐的释放模式,则返回 Deskew_Data_Relink 状态。
Deskew_Data_Mission 状态必须确保表 1-2 中的偏斜消除模式已应用至少表 1-3 中规定的 duration_to_transmit_release_pattern 时间限制。时间过后,开始发送任务模式数据。模式更改必须相位连续且无毛刺,以避免链路接收器的时钟数据恢复 (CDR) 丢失锁定(否则可能导致偏斜消除失效)。如果接收数据失效,则返回 Deskew_Data_Relink 状态。接收数据失效的判定依据可以是接收信号丢失、接收时钟数据恢复 (CDR) 锁定丢失或 PCS 重复检测到不可纠正的错误。
二、物理数据传输顺序和波长分配
提供给 OCI PMA 的每 4 位数据都使用最短波长 TX 进行传输,该波长从 OCI PMA 输入接口的最低有效位开始,随着位位置的增加,波长逐渐增加。同样,从最短接收波长信道恢复的数据位被发送到 OCI PMA 输出接口的最低有效位。
光纤规格 每个光纤端口应支持双向 212.5 Gbps 数据速率,发送和接收信号在同一根光纤上,使用不同的波长组。212.5 Gbps 电信号由四个 DWDM 53.125 Gbps NRZ 光信号聚合而成,如上一节所述。图 2-1 显示了同一根光纤支持的发送器和接收器的 DWDM 波长通道和 CWDM 波长组。A/B 型收发器始终发送本节中规定的 A/B 组波长。双向链路一端连接 A 型收发器,另一端连接 B 型收发器。虽然图 2-1 展示了一个两端均配备 A 型和 B 型收发器的对称实现示例,但规范并未严格要求这种对称性,非对称的物理实现也符合要求。
一、一般特性
一般光学规格见表 2-1。
二、光发射机特性
光发射机特性定义见表2-2。
三、光接收机特性
光接收机特性定义见表2-3。
四、光纤链路模型
参考光纤链路模型基于500米SMF-28光纤,总插入损耗为2.5 dB,主要由链路中的连接器损耗引起。它代表了数据中心后端网络中OCI收发器需要闭合的最差链路。总链路损耗和色散预算如表2-5所示。
五、外部激光源
OCI 实现应使用符合 OIF ELSFP 实现规范和表 2-6 中规定的外部激光源 (ELS)。光必须耦合到保偏光纤 (PMF) 中,然后连接到 OCI 芯片。必须仔细考虑损耗预算和容差,以确保 ELS 能够提供足够的输出功率。激光源将提供一个较小的控制范围,用于调节发射端的光功率,允许功率从最大功率水平衰减。光功率水平和控制范围是具体实现 (IS) 的,未在表 2-6 中规定。
光学引擎管理接口 收发器应向主机提供基于 CMIS 5.3 的管理接口。这需要通过处理核心来实现。关于硬件和软件实现的更多细节可能会在本文档的后续版本中添加。为了辅助调试和自检,强烈建议具备诸如电环回模式、光环回模式以及 MPI 检测等诊断功能。光引擎依赖于遵循 CMIS 规范的主机层软件实现。本章将介绍 CMIS 规范中与 OCI 相关的部分。
一、标志摘要
CMIS 5.3 仅在下半页寄存器中定义了 0-3 号存储体的标志摘要。如果主机实现使用一个主机层来管理 8 个光引擎,则应扩展这些寄存器的上半部分以支持 4-7 号存储体的标志摘要。
二、飞行数据记录器(Flight Data Recorder)
为了便于检索标准 CMIS 接口之外的调试信息,需要一种飞行数据记录器机制。CDB 协议定义可用于此功能。具体实现方式由厂商自行决定。
三、多功能诊断监控 (VDM:Versatile Diagnostic Monitoring) 定义
VDM 提供除 CMIS 第 11h 和 14h 页之外的更多监控资源。详细信息可从 VDM 规范中获取(自定义可观测值参见表 3-2)。
VDM 告警和警告在第 5 节中进行了规定,阈值待定。请注意,表 3-2 中列出的某些 VDM 可观测值的有效性取决于 OCI 收发器的具体物理实现,应由供应商和用户协商确定。
四、数字诊断规范
五、告警和警告
告警和警告应针对每个 VDM 实例、每个存储体以及每个通道(如适用)进行报告。四个 DWDM 光波长通道各自拥有独立的告警和警告报告。
以下列出了细化到通道级别的告警和警告监控资源。此组中的每个监控资源均针对每个 DWDM 光波长通道。
发射机偏置电流(来自 ELS 偏置电流报告) 发射机光功率 接收机光功率 光接收机 PRBS 校验误码率 (BER) 光接收机 MPI 指标
以下列出了细化到数据路径通道级别的告警和警告监控资源。此组中的每个监控资源均针对每个 212.5 Gbps 电数据路径通道。
主机侧 PreFEC 误码率 线路侧 PreFEC 误码率 主机侧 LTP
以下列出了细化到单芯片级别的告警和警告监控资源。此组中的每个监控资源均针对 1.6 Tbps 的芯片组。
|