通信人家园
标题:
CPO,过热了?
[查看完整版帖子]
[打印本页]
时间:
2025-12-25 11:08
作者:
无聊小北
标题:
CPO,过热了?
邵逸琦 半导体行业观察
在AI基础设施被资本与产业合力推向发展高潮的当下,凡是与“光”“互联”“带宽”“功耗”挂钩的技术方向,都极易被贴上“下一代核心技术”的标签,迅速成为市场追逐的焦点,其中共封装光学(CPO),正是这股热潮中最具代表性的存在。
然而,就在行业对 CPO 的讨论热度节节攀升之际,博通首席执行官陈福阳(Hock Tan)却在2025 财年第四季度财报电话会议上,为这股狂热情绪浇下一盆冷水。
“硅光子学在短期内不会在数据中心发挥实质性作用。”
陈福阳并未简单粗暴地否定这项先进技术地未来,他在后续问答中解释,硅光子、CPO 绝非对现有技术的“跳跃式”替代方案,而是需要在既有互联技术路径的潜力被彻底榨干后,才会被产业被动启用的终极选择。他将整个互联技术的演进逻辑清晰梳理:首先是机架级铜互联的规模化落地,随后是可插拔光模块(Pluggable Optics)的持续迭代升级,唯有当这两条技术路径均触及物理性能与经济成本的双重极限,硅光子 / CPO 才会真正成为行业刚需。
“这一天一定会到来,但不是现在。”
当然,给CPO降温的并非只有博通一家。在最新的巴克莱第 23 届全球技术大会上,包括Arista、Credo、Marvell、Astera、Lumentum在内的一众行业头部企业,均传递出了相似的声音。
从“算力不足”到“互联焦虑”
事实上,过去几年里,AI行业已经逐渐走出了早“单纯堆算力的阶段。即便是英伟达这样的算力王者,也在有意淡化对单点计算性能的强调,转而反复突出互联、网络以及系统级架构的重要性——因为在大模型时代,真正决定上限的,早已不只是芯片本身。
随着模型参数规模与集群规模同步呈指数级扩张,AI集群的核心瓶颈也开始悄然从计算能力转向互联能力。此时考验行业巨头的,已不再只是能否豪掷重金采购更多GPU,而是如何在超大规模系统中实现高效互联:通信效率是否足够高、延迟是否可控、系统能否稳定协同运行,正逐步成为决定算力能否“用得起来”的关键因素。
行业显然早已预见到这一变化。博通首席执行官陈福阳在财报电话会议中透露,其客户正在规划和部署规模超过10万颗GPU的超大型AI集群;而Arista在技术大会上进一步指出,行业内部讨论的目标,已经指向百万GPU级别的集群架构。多位产业领袖的判断趋于一致:当AI集群规模从数千颗GPU扩展到数十万、乃至百万级别时,网络不再只是“带宽够不够”的问题,而是演变为一整套系统性挑战——包括互联可靠性、功耗上限、可维护性以及整体部署节奏。
正因如此,过去一年中,巨头们反复强调的关键词也发生了明显变化:
Scale-Out(横向扩展)、Scale-Up(纵向扩展)、Scale-Across(跨域扩展),以及功耗墙、链路可靠性、系统级协同设计……这些看似偏“工程化”的概念,实则标志着行业对AI基础设施瓶颈认知的一次深刻转向——AI的竞争重心,正在从算力本身,全面迈向互联与系统能力。
横向扩展用不到
首先来说横向扩展(Scale-Out),这一概念往往称为集群系统,通过增加独立的服务器来分散工作负载,从而提高计算容量,类似于英伟达InfiniBand。
对于巨头而言,横向扩展目前似乎还用不到CPO。
博通陈福阳的表态最具代表性:800G可插拔技术于2022年推出,增长周期将持续至2026年;1.6T产品已进入量产,预计增长至少持续到2029年;3.2T技术已完成展示。“未来5-7年,可插拔光模块仍将占据主导地位,这也是横向扩展领域的CPO技术尚未被广泛采用的原因。”
Lumentum的袁武鹏进一步细化了2026年的市场结构预测:光端口总量将达到6000万-7000万个,同比增长接近翻倍。其中800G端口约占55%-60%,1.6T端口约占15%-20%。这一数据表明,即便1.6T技术已经就绪,800G仍将是2026年的绝对主流,行业并未出现“激进跃迁”。
Marvell首席运营官Chris Koopmans的观点进一步强化了这一判断:“横向扩展领域的CPO技术最终会到来,但仍需数年时间。在传输距离较长、需要互操作的市场中,可插拔产品的采用速度较慢。”他特别指出,客户已经完成400G产品的软件认证,当800G产品推出后,从400G向800G的迁移“几乎是即时完成的”,新部署项目迅速采用了800G解决方案——这正是软件预认证带来的生态优势,也是可插拔架构的核心护城河。
Arista也强调,在1.6T速率下,“我们仍然有信心实现低功耗光模块(LPO)的稳定运行;同时,共封装铜缆(CPO)等技术也在评估之中,这些都是潜在的差异化优势。率先推出下一代速率产品并快速实现商业化,是我们的核心差异化策略之一。”
纵向扩展也不着急?
纵向扩展(Scale-up)专注于升级单台服务器或基于机箱的系统,通过向现有系统增加芯片来提升算力,它曾被视为CPO技术的“第一战场”,是CPO最有希望应用的场景。
但在这个最需要CPO的场景中,量产时间表也被大幅推迟。
CPO的急先锋Marvell收购Celestial AI后给出了新的营收目标:2027年底年化营收达5亿美元,2028年底翻倍至10亿美元。其解释道,这一时间表主要基于首款产品和首个客户的落地情况。Celestial AI带来的16太比特芯粒产品,其性能是横向扩展领域最先进1.6T产品的10倍,具有完全不同的外形尺寸、密度、带宽和技术特性——但即便如此,大规模商业部署仍被推迟至2027-2028年。
Astera Labs的Jitendra Mohan给出了更为详细的时间预判:“随着系统复杂度提升、数据速率增长,以及客户希望将纵向扩展领域从1个机柜扩展到2-4个机柜,转向光学技术将成为必然选择。我们与客户就这一交汇点展开了深入合作,预计将在2028-2029年实现大规模部署。但光学技术的部署不会一蹴而就,2027年将进行一些测试性部署,为2028年的大规模部署做准备。”
为什么即便是最需要的场景,CPO应用时间表也被推迟?
Lumentum的袁武鹏给出了供应链视角的解释:“CPO供应链仍相对较新,需要时间来提升产能以支持大规模需求。因此,当前的供应限制并非源于基础产能不足,而是因为供应链尚不成熟,供应商需要时间来适应需求增长。”
Credo的CEO Bill Brennan则从产能角度分析:“纵向扩展场景的需求将是现有需求的数倍。我们目前已经在积极扩大产能,而纵向扩展场景将进一步大幅提升产能需求。这需要整个行业的共同努力,我们正在与多个客户就此展开沟通,并已开始相关工作。”
更深层的原因,是各种过渡方案的生命力超出预期。
Astera Labs的Mohan坦言:“客户之所以不愿转向光学,是因为光学技术需要更高的功耗和成本。”
而博通则强调:“我们认为CPO是正确的技术方向,但我们不确定这些产品是否会完全部署,因为我们的工程师和行业同行会尽可能通过机柜内铜缆和可插拔光模块实现纵向扩展,只有当可插拔光模块和铜缆都无法满足需求时,硅光子技术才会成为必然选择。”
功耗与可靠性:
比带宽更真实的约束条件
对于巨头而言,功耗和可靠性正是他们迟迟不愿意全面拥抱CPO的重要原因之一。
Credo的Bill Brennan用具体案例阐释了这一挑战的严重性:xAI原本使用基于激光的光模块连接18个机柜的集群,后来计划迁移到液冷设施,将机柜数量从18个压缩到6个。团队向Credo提出:“如果你们能生产7米长的线缆,我们就能构建一个‘零中断’集群。”因为铜缆解决方案的可靠性众所周知,是绝对稳定的。
“零中断”这个概念给了行业巨大启发。Bill Brennan指出,从那时起,Credo的团队开始重点攻克可靠性难题,“尤其是针对GPU与第一级交换机(T0)之间的链路。我们最近推出的所有产品,其差异化优势核心都围绕可靠性展开。”
在巨头看来,互联技术首先要可靠可控,而非一味追求极限性能;可预测、可诊断、可维护,往往比“理论最优”更重要。
Lumentum的袁武鹏在谈到ZeroFlap光学解决方案时,详细阐述了这一理念的技术实现。他指出,甲骨文与xAI一样面临链路中断问题,但他们的链路长度远超7米,只能采用基于激光的光模块。Lumentum的方案核心是:在链路中断发生前识别潜在风险,并通过主动干预加以缓解。
具体而言,Lumentum重新设计了定制化光学DSP,使其能够在带内(in-band)通信——即在传输高速数据的同时,实现DSP之间的双向通信,传输遥测数据。然后将试点软件进行深度整合,将原始数据转化为可用的遥测数据;再通过交换机SDK实现与客户网络的集成。“如今,我们能够为客户提供实时、持续的遥测数据,包括信号强度与接收灵敏度、前置误码率、后置技术直方图等;还能识别静电放电(ESD)损坏、检测光纤上的灰尘。这一解决方案远超传统激光光模块的系统级能力。”
就目前而言,短距互联的可靠性上限,依然掌握在铜缆/ AEC手中,CPO并非替代者,其优势更多来自距离、密度和系统可观测性。
Arista在演讲中还提到了功耗这一行业关注的核心问题。“我们产品的功耗通常比同类产品低约25%——当大规模部署产品时,这一优势将尤为显著。当前,功耗是行业关注的核心问题之一,低功耗交换机无疑具备很强的市场吸引力。”
过度方案,
正在“吃掉”CPO的叙事空间
值得关注的是,LPO、AEC、ALC等过渡方案也在持续蚕食、分流原本被寄望于CPO的应用空间。越来越多厂商在实践中形成了一种微妙的共识:现有互联生态远未触及边界,CPO并非唯一答案,也不是当下的终局。
LPO(线性驱动可插拔光模块)被视为一种替代方案。Arista称,LPO技术“可以说是Arista向行业输出的前瞻性创新”,其联合创始人Andy Bechtolsheim提出了这一概念,并推动行业广泛采用。“目前,800G速率的LPO光模块已实现大规模部署,该技术为客户带来了显著的成本优势:由于无需数字信号处理器(DSP),资本支出更低;同时功耗更低,运营支出也相应减少,客户可以将节省的功耗预算用于部署更多计算设备。我们有信心在1.6T速率下实现LPO技术的稳定运行。”
LPO的逻辑是“去DSP → 降功耗、降成本”,对交换机与光模块厂商来说,这是“架构优化”,而非“生态重构”,相对应的,AEC(有源电缆组件)与ALC(有源光缆)的逻辑则是在2–30米这个最密集、最关键的互联区间,提供接近铜缆的可靠性 + 接近光学的带宽。
Credo的Bill Brennan强调,AEC在数据中心的应用场景非常广泛,“除了多种解决connectivity问题的方案外,无论是后端网络的横向扩展/纵向扩展交换机机柜、前端连接,都存在大量超越标准的创新机会。因此,AEC领域将持续涌现更多创新。”他特别指出,Credo的独特之处在于开创了这个市场,且“必须深入产业链各个环节,对产品的每一个方面都承担责任”——这种端到端掌控能力,构成了难以逾越的竞争壁垒。
Marvell推出的“黄金线缆计划”,正是AEC这一逻辑的延伸。Marvell的Chris Koopmans指出,线缆产品与光模块本质上没有区别,超大规模客户希望实现多源供应。“我们的‘黄金线缆计划’本质上是一个完整的参考设计,向相关企业展示如何打造符合要求的产品。之所以能实现这一点,是因为我们的DSP在PAM4技术方面性能强劲、功能强大,能够适配各类线缆——我们无需端到端控制和定义整个产品,而这正是客户想要的。”
ALC技术则是另一个重要方向。Credo的Bill Brennan指出,当行业最终需要CPO替代方案时,“我们在ALC中投入的微LED技术将直接应用于近封装光学(near-package optics),其功耗仅为CPO的1/3,且无需像当前展会上展示的那样采用复杂的交换机设计。因此,我们认为当行业最终需要CPO替代方案时,我们的技术路径将更具优势。”
CPO的现实问题清单
综合多家公司的表态,CPO面临的挑战高度一致,且集中在工程与商业层面而非技术可行性。
可维护性是最突出的痛点。Lumentum的袁武鹏直言,CPO技术“经过多代演进,其核心目标是降低成本和功耗。目前行业仍在解决可维护性等相关问题,我们相信随着技术成熟,CPO将得到广泛应用。”博通的陈福阳更明确指出CPO的三大根本缺陷:“从成本来看,CPO肯定更贵;从可靠性来看,基于激光的CPO远不如现有技术;从功耗来看,它也不是当前讨论的所有技术中最低的。这些缺陷导致CPO迟迟未能量产。”
系统设计复杂度是另一重障碍。Marvell的Chris Koopmans指出,纵向扩展领域所需的光互联技术是一种完全不同的技术类型,必须直接与千瓦级XPU和交换机共封装,具有完全不同的外形尺寸、密度、带宽和技术特性。Astera Labs的Jitendra Mohan补充道,光链路由三个组件构成:电集成电路(EIC)、光子集成电路(PIC)和连接器——“连接器是关键组件,负责将光子集成电路的光输出耦合到光纤,目前限制了光学技术的规模化(量产数百万EIC和PIC相对容易,但可靠地连接光纤等环节面临挑战)。”
成本结构不确定性困扰着所有参与者。博通的判断最为直接:“从成本来看,CPO肯定更贵。”这不是便宜的光模块,而是昂贵的系统工程——散热、供电、测试、维修全部需要重构。
除此之外,生态尚未形成,需要交换机、光学、封装、软件协同成熟。Lumentum的袁武鹏在谈到横向扩展CPO时指出,“客户的机会成本非常高,所有项目都需要即时产能爬坡,他们没有时间去认证新的供应商。”而对于新技术,这种生态成熟度的建立需要多年时间。
为什么超大规模云厂商不着急?
有趣的是,即便是技术最激进、资金最充裕的超大规模云厂商,对CPO的态度也异常谨慎。
Lumentum的袁武鹏给出了一线观察:“目前,客户仍然更倾向于依赖现有的供应链,因为他们已经建立了高度的信任——知道这些供应商能够实现产能爬坡,且产品可靠性、质量都有保障,而这种信任需要时间积累。尤其是现在,客户的机会成本非常高,所有项目都需要即时产能爬坡,他们没有时间去认证新的供应商。”
这透露出了一个行业关键矛盾:CPO技术的部署窗口,与超大规模客户的部署节奏存在根本性错配。
Arista的Hardev Singh在谈到云客户需求时指出:“二级云厂商和企业客户的合作模式略有不同:这些客户有明确的需求和上市时间要求,他们关心的是‘供应商是否能提供现成的网络解决方案,快速部署并投入使用’。而与超大规模云厂商的合作则完全不同——他们始终追求前沿技术,倾向于采用尖端创新方案。”
但即便是“始终追求前沿技术”的超大规模云厂商,在面对CPO时也表现出了审慎态度。原因何在?
第一,可靠性要求极高,容错空间为零。Credo的Bill Brennan反复强调:“在超大规模客户使用的任何人工智能系统中,除了XPUs等定制加速器,还包含大量其他组件,因此我们认为以系统形式销售并对整个系统承担全部责任是合理的。”而CPO技术一旦出现问题,是“整板级风险”,远超可插拔光模块的故障隔离能力。
第二,运维体系的惯性巨大。Lumentum的袁武鹏指出,所有超大规模云厂商“都拥有自己的网络团队”,已经建立了完善的认证、测试、运维流程。Marvell的Chris Koopmans补充道:“客户的认证周期通常在一年前就已启动,即使后来推出性能合格的产品,要在多个模块生态系统、多种激光类型以及所有超大规模客户要求的特定外形尺寸中完成认证,也需要很长时间。而如今,客户最关注的首要因素是上市时间。”
第三,供应链安全优先于技术领先。博通陈福阳在财报会议上强调:“随着需求增长和创新封装的需求提升,封装已成为一项极具技术性的挑战。建设新加坡工厂的核心目的是部分内部化先进封装产能——我们认为,基于强劲的需求,内部化封装不仅能优化成本,更能保障供应链安全和交付稳定性。”而CPO技术的供应链成熟度,远低于可插拔光模块。
第四,架构灵活性需求强烈。Astera Labs的Jitendra Mohan指出:“目前,许多客户仍在规划整体架构。如果将所有功能都集成到单片芯片中,客户现在就必须做出决策。但在行业标准尚未最终确定、另一端的交换机尚未推出的情况下,谁会冒险将所有赌注押在某一种协议上?”而可插拔架构恰恰提供了这种灵活性。
Marvell的Chris Koopmans总结道:“归根结底,我们需要评估每个机会:我们的角色是什么?客户是否要求我们这样做?我们能带来什么差异化价值?以及我们在该领域能否获得可持续的竞争优势?目前,客户要求我们专注于PCI Express及其向UALink的转型——这对我们来说是一个巨大的机会,因此我们的重点在此。”
CPO不是伪命题,
但现在显然“被讲早了”
对于行业而言,CPO更像是互联体系的“最后一公里”技术,而非下一代架构的默认选项。它解决的是现有技术路径彻底失效之后的问题,而不是当下迫在眉睫的瓶颈。
这一判断,在博通首席执行官陈福阳的表态中得到了高度概括。他直言:“未来某个时刻,硅光子学将会成为实现高速传输的唯一途径,届时它的重要性便会凸显,但我们目前还未到那个阶段。只有当可插拔光模块技术也无法满足需求时,硅光子学才会成为最终的解决方案。这一天终将到来,我们也已做好准备,只是不会很快实现。”
换言之,CPO是终极解法之一,但不是当前阶段的最优解。
因此,在相当长的一段时间内,LPO、AEC、ALC 以及ZR光模块仍将承担数据中心互联的主力角色。相比之下,CPO的应用场景将更加收敛——主要集中在极高端口密度、极端功耗约束、以及现有架构已经“无解”的特定系统中,而非大规模铺开。
多家厂商给出的技术路线与时间表,也印证了这一判断。Arista的Hardev Singh明确表示,LPO的演进远未结束:“我们有信心在1.6T速率下实现LPO技术的稳定运行,目前相关研发工作正在推进中。”
Credo首席执行官Bill Brennan则从另一条路径给出了更具“反直觉”的判断:“我们在ALC中投入的微LED技术将直接应用于近封装光学,其功耗仅为CPO的三分之一,且无需复杂的交换机设计。因此,我们认为,当行业最终需要CPO替代方案时,我们的技术路径将更具优势。”
在时间节点上,行业的判断也正在逐步收敛:
2026年:800G仍占主导,1.6T开始放量,LPO / AEC持续增长
2027年:1.6T成为主流,CPO进入小规模测试与验证阶段
2028年及以后:CPO在特定场景(主要是纵向扩展的高密度系统)中开始规模化部署
Lumentum的袁武鹏对这一节奏给出了相对激进、但依然谨慎的预测:“到2027–2028年左右,首批采用CPO的客户中,约有40%–50%的交换机将基于CPO技术。但这一判断仍存在较大不确定性,客户也在根据自身业务节奏进行评估。”
Astera Labs的Jitendra Mohan则给出了几乎一致的判断:“我们预计将在 2028–2029 年实现大规模部署。光学技术的演进不会一蹴而就,2027 年更多是测试性部署,为后续放量做准备。”
由此,真正的问题已经不再是“要不要 CPO?”,而是“在什么条件下,现有方案真的不够用了?”
Marvell光学与互联业务负责人Chris Koopmans给出了最务实的回答:“归根结底,客户在光学技术选择上存在很大分歧。我们的理念不是强迫客户接受某一种路径,而是支持他们的选择——如果客户希望将其指定的光子技术与我们的电芯片和封装方案结合,我们会非常乐意配合。”
这或许正是理解当前CPO讨论热度与实际部署节奏错位的关键所在:在PPT里,CPO非常重要;在机房里,它并不紧急。
行业真正需要的,不是技术可行性证明,而是系统必要性证明。只有当 LPO、AEC、ALC等路径在功耗、密度、可靠性上同时触顶,CPO才会从未来选项转变为当下必需。
而从当前几乎所有行业巨头的共同表态来看,那个时刻,还没有到来。
时间:
2025-12-25 14:58
作者:
浪迹天涯222
看了一圈厂商表态,CPO就像备胎方案,只有铜缆和可插拔彻底不行了才会考虑。
通信人家园 (https://www.txrjy.com/)
Powered by C114