通信人家园
标题:
光模块和集群互联调研纪要
[查看完整版帖子]
[打印本页]
时间:
2025-12-12 08:57
作者:
无聊小北
标题:
光模块和集群互联调研纪要
梦想的第四维
一、行业需求与供给侧
问:2025年底市场为何提前开始关注2027-2028年光模块行业需求,且需求可见度有所提升?
答:一方面是海外大厂相关会议及调研反馈积极,带动行业预期持续上修;另一方面核心环节光芯片的扩产速度是全环节中最慢之一,其设备到齐需2-3个季度,新产线调试甚至要1.5年,2026年产能已基本锁定,2027年产能也被部分预定,部分厂商已开始协商2028年产能,上游供给的紧张使得客户不得不提前沟通未来2-3年的需求,以此让供应商有充足信心扩产,因此行业对2027-2028年的需求可见度在2025年底就已提升,市场也开始提前交易相关增长预期。
问:当前光模块产业链中核心的紧缺环节有哪些?
答:核心紧缺环节主要包含以下几类:一是光芯片,其扩产周期最长,产能最为紧张;二是电芯片(如DSP类)和PIC,这两类产品主要由海外公司供应,其中PIC流片依赖Tower半导体,电芯片则多由博通、marvell等大厂供应,且电芯片需提前半年锁定产能;三是隔离器,其核心紧缺物料为旋光片,旋光片主要由日美两国的公司供应,扩产节奏跟不上需求,进而引发旋光片涨价及隔离器涨价。
问:2026-2027年光模块厂商的利润率为何具备超预期潜力?
答:首先,行业整体紧缺的格局会推动光模块价格和毛利率趋势性向好;其次,从800G到1.6T光模块,大量采用硅光方案,相较于传统方案能实现饱和度提升;最后,行业紧缺背景下部分客户会产生加急费等额外收益,若后续更多客户出现此类需求,会进一步助推利润率提升,因此相较于量的超预期,厂商利润率的超预期空间更值得看好。
二、网络协议与集群互联架构
问:网络协议层面的Scale up和Scale out核心区别是什么,为何不能以柜内/柜外区分二者?
答:二者最根本的区别在于网络协议,而非柜内或柜外的部署位置,以柜内/柜外区分是完全错误的。
Scale up是高速专有协议短距离小范围局域网,基于专有协议,数据仅能在局域网内循环,无法直接发往广域网,若要外联需借助Scale out,其对AI训练阶段的集群性能影响更大;
Scale out相对低速,多采用公有协议(英伟达IB选偏私有),支持大范围、相对长距离传输且可连接公网,主要用于协同组之间的扩展连接。
此外,二者协议不相通,但会同时架设在同一张芯片卡上,每张芯片会同时连接一套Scale up和一套Scale out。
问:提升AI集群性能的核心思路有哪些,分别对应什么技术方案?
答:提升AI集群性能的核心是突破通信瓶颈,因为AI任务多为并行计算,卡与卡之间的等待会造成大量时间浪费,且单卡晶体管堆叠受摩尔定律限制,因此需强化卡间协同,主要有两类思路:
第一类是高密度机柜思路,以英伟达为代表,通过在机柜内塞入更多卡(如从原72张卡提升至570多个die)做大Scale up,但该方案需配套新技术,包括加强访问正交板(如把compute tray和switch tray用正交板连接,再去接铜线,做成576的superrack)、800伏电源及更复杂的液冷技术,对新技术成熟度要求较高;
第二类是超节点思路,如谷歌的Ironwood、华为的384、阿里的UPN512等,该方案不追求单机柜高密度,而是用光互联实现机柜间的Scale up,同时仍需为每张卡单独连接Scale out,这会新增柜到柜之间的Scale up光互联需求,推动光通信在集群中的成本占比持续提升, 该逻辑支撑光模块及光通信的通胀。
问:谷歌Ironwood超节点方案的具体部署形式,带来了哪些额外的光通信需求?
答:谷歌Ironwood超节点将144个机柜,通过光模块加OCS的方式实现Scale up互联,集群规模达9216张卡。此前谷歌机柜仅做柜内Scale up,柜间没有Scale up,后面用Scale out连接,而该方案下每个机柜需配置96个Scale up专用光模块,同时还需配套OCS(一个pod约配置48台OCS),新增了大量柜间Scale up光模块和OCS的需求。
问:为何2025年后期柜内Scale up环节开始讨论用光连接替代传统铜连接?
答:传统铜连接(PCB板或铜线)属于导体传输,核心痛点是阻抗问题,会造成不可避免的信号损耗,非超导技术难以逆转该趋势;而光通信在短距离下基本无损耗,仅需承担光电转换带来的额外成本和功耗。此前英伟达等大厂对柜内大规模上光讨论较少,但由于铜方案演进遇到诸多阻力,叠加台积电相关客户平台愈发成熟,使得柜内Scale up用光连接替代铜连接的讨论增多,该方向具备技术合理性,仅是落地时间问题。
时间:
2025-12-12 09:02
作者:
xiaoxiaohe99
本帖最后由 xiaoxiaohe99 于 2025-12-12 09:02 编辑
在dc越来越重要了,是成本大头
时间:
2025-12-12 09:24
作者:
为别人打工的人
时间:
2025-12-12 10:21
作者:
flyao123
光模块需求提前锁定这个现象很有意思,芯片扩产周期长倒逼客户提前规划,产业链上下游的协同效应开始显现。
通信人家园 (https://www.txrjy.com/)
Powered by C114