通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  列兵

注册:2017-9-28
跳转到指定楼层
1#
发表于 2025-12-2 14:19:39 |只看该作者 |正序浏览

Ultra Ethernet (UE) 是一項由 Ultra Ethernet Consortium (UEC) 提出的開放標準倡議,旨在將乙太網路演進為一種高效能、全通訊堆疊架構,專門針對 AI 和 HPC 大規模部署的嚴苛網路需求進行優化 49。
  • UEC 使命與目標:
    UEC 的使命是提供一個基於乙太網路、開放、可互通、高效能、全通訊堆疊的架構,以滿足 AI 和 HPC 日益增長的網路需求 49。其目標是優化乙太網路,使其適用於高效能 AI 和 HPC 網路,旨在超越當今專有技術(如 InfiniBand)的效能 49。這包括提升頻寬、降低延遲(包括尾部延遲),並擴展規模以適應未來的工作負載和計算架構 50。UEC 致力於保持與廣泛部署的 API 的向下相容性,並定義新的 API 以更好地優化未來的工作負載 50。該聯盟將重點放在功能性、效能、總擁有成本(TCO)以及開發者和終端用戶的友好性上,在保持乙太網路互通性的同時,盡量減少不必要的變革 50。
  • 技術規格:
    Ultra Ethernet Specification v1.0 是一份全面的文件,涵蓋 OSI 模型的七個層次 51。

  • 物理層: 與 IEEE 802.3 標準乙太網路相容,指定使用每通道 100G 信號的物理層。
  • 鏈路層: 引入了鏈路級重試(LLR)協議,用於實現無損傳輸,而無需單獨依賴優先級流量控制(PFC)。這確保了更快的錯誤恢復,消除了不必要的端到端重傳,並降低了尾部延遲。它還支援基於信用的流量控制(CBFC) 51。
  • 網路層: 在網路層使用 IP(IPv4 或 IPv6)51。它支援
    顯式擁塞通知(ECN) 51,並引入**封包修剪(Packet Trimming)**作為一種額外的擁塞通知機制,允許交換機截斷競爭封包作為擁塞信號 52。
  • 傳輸層(Ultra Ethernet Transport - UET): 這是規格中最實質的部分 51,分為四個子層:

  • 封包傳輸子層(PDS): 負責為語義子層提供可靠傳輸,定義了請求、回應(ACK/NACK)和控制封包 51。它是一種面向封包的協議,為每個封包分配單調遞增的封包序列號(PSN),以實現可靠性和按序傳輸 51。PDS 支援四種封包傳輸模式:可靠無序傳輸(RUD)、可靠有序傳輸(ROD)、可靠無序傳輸冪等(RUDI)和不可靠無序傳輸(UUD)51。它還具有非對稱連接(發起者/目標)51。
  • 語義子層(SES): 為 AI 和 HPC 應用程式提供高效的訊息傳遞,將 libfabric API 請求映射到傳輸的訊息 51。它支援遠端直接記憶體存取(RDMA)、集體通訊(CCL)和訊息傳遞介面(MPI)語義 52。
  • 擁塞管理子層(CMS): 結合了基於視窗的擁塞控制和負載平衡機制 51。它包括
    網路信號擁塞控制(NSCC)(基於發送者)和接收器信用擁塞控制(RCCC)(基於接收器),用於調整傳輸速率和管理入播場景 52。
  • 傳輸安全子層(TSS): 提供可選的端到端加密和基於先進群組金鑰方案的認證 52。

  • 軟體層: 定義了 UE 相容設備如何與 AI 框架和 HPC 工作負載互動 51。它旨在支援 libfabric v2.0 API,實現與 TensorFlow、PyTorch 和 JAX 等 AI 框架的互動 52。

  • 頻寬: Ultra Ethernet 支援高吞吐量連接,800G 連接很常見,並規劃 1.6T (802.3dj) 和 3.2T 乙太網路 53。Synopsys Ultra Ethernet IP 解決方案提供高達 1.6 Tbps 的頻寬,可連接多達一百萬個端點 54。
  • 延遲: Ultra Ethernet 旨在降低延遲,透過封包噴灑(packet spraying)和按需重傳等技術實現 53。Ultra Ethernet 相容交換機具有切通交換(cut-through switching)功能,可將延遲限制在 560ns 53。FS 提供具有超低延遲(<1μs)的 800G Ultra Ethernet 交換機 49。
  • 可擴展性與可靠性: Ultra Ethernet 具有自癒能力,即使在輕微故障後也能路由流量並保持無損通訊 53。它透過引入新的擁塞控制機制、智慧封包排程和無損傳輸層來克服傳統乙太網路的挑戰,確保訓練工作負載在數千個 GPU 或計算節點上更高效地擴展 49。
  • 在 AI/HPC 叢集中的應用:
    Ultra Ethernet 專為 AI 和 HPC 工作負載的需求而設計 53。它對於 AI 模型同步數 TB 數據、訓練具有數十萬億參數的 AI 模型以及連接單一網路中超過 100,000 個 GPU 至關重要 53。其吞吐量和超低延遲允許數據密集型應用程式近乎即時地管理 PB 級數據 53。它還支援集體通訊功能,如 Allreduce 和 Allgather,以減少大型神經網路的瓶頸和訓練時間 53。
  • 主要開發商和聯盟:
    Ultra Ethernet Consortium (UEC) 是一個由業界領導者組成的聯盟,包括 AMD、Arista、Broadcom、Cisco、HPE、Intel、Meta、Microsoft 和 Oracle 49。UEC 歡迎廣泛的成員加入,包括超大規模資料中心營運商、晶片供應商和系統供應商 55。
  • 與 InfiniBand 和 RoCE 的比較:
    Ultra Ethernet 旨在超越當今專有技術(如 InfiniBand)的效能 49。它透過建立在乙太網路的基礎上,利用其龐大的安裝基礎、廣泛的生態系統和較低的成本結構,來取代 InfiniBand 等專有解決方案 49。截至 2024 年,乙太網路(包括 UE)在 TOP500 超級計算機效能方面已超越 InfiniBand 49。Ultra Ethernet 透過引入鏈路級重試(LLR)協議和先進的擁塞管理機制,旨在原生於乙太網路中提供強大、低延遲和無損的傳輸,而無需單純依賴 PFC 所帶來的潛在網路死鎖問題 52。
  • 表 3:資料中心和機架規模 AI 叢集互連標準比較


標準
最新版本/速度
頻寬(總計)
延遲(典型/範圍)
主要應用場景
關鍵功能
主要開發商
InfiniBand
XDR (2024): 800 Gbit/s (4x); GDR (TBA): 1600 Gbit/s (4x)
EDR: 0.5 μs; HDR: <0.6 μs; 應用層: 2 μs 56
超級計算、AI/GPU 叢集、HPC
原生 RDMA、交換式結構、無損傳輸、信用點流量控制 41
Mellanox (NVIDIA), IBTA 35

高速乙太網路 (RoCE)
400 GbE, 800 GbE, 1.6T (Keysight); Broadcom Tomahawk Ultra: 51.2 Tbps 3
RoCE HCA: 1.3 μs; 乙太網路交換器: 230 ns; 應用層: 5 μs 35
雲端資料中心、企業 AI 基礎設施、分散式 GPU 訓練 25
RDMA over Ethernet (RoCE v1/v2)、成本效益、廣泛相容性、PFC/ECN 擁塞控制 35
Broadcom, Keysight, Mellanox (NVIDIA), Emulex, Intel 35

Ultra Ethernet (UE)
800G (常見), 1.6T/3.2T (規劃) 53; Synopsys IP: 1.6 Tbps 54
交換器: <1 μs 49; 切通交換: 560 ns 53; 亞微秒級 53
AI/HPC 大規模部署、GPU 叢集、資料中心骨幹 53
開放標準、無損傳輸 (LLR, CBFC)、原生 RDMA (UET)、先進擁塞控制 (NSCC, RCCC, 封包修剪)、端到端加密
UEC (AMD, Arista, Broadcom, Cisco, HPE, Intel, Meta, Microsoft, Oracle 等) 49


举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-12-2 22:36 , Processed in 0.157458 second(s), 17 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部