通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  大校

注册:2016-3-7294
跳转到指定楼层
1#
发表于 2025-12-9 08:54:10 |只看该作者 |倒序浏览
梦想的第四维

一、TPU对AMD的冲击

问:相较于英伟达,展望TPU对AMD的冲击是否更大?目前是否看到客户实质性行动,替换AMD产品比英伟达更快?

答:TPU出现后,对AMD的冲击最大。TPU在许多用户场景中与AMD的市场定位高度重叠,使AMD面临更强劲的竞争对手。在训练市场,目前只有谷歌能够充分发挥TPU在模型训练中的价值,形成对GPU的替代。像Anthropic和Meta在训练环节还未能完全用TPU替代GPU,仍处于逐步过渡阶段。因此,未来除了谷歌之外,其他客户使用TPU主要还是用于推理场景。而推理场景是目前AMD主要能够争取的市场份额所在地。在训练领域,AMD的GPU暂时无法替代英伟达,因此其市场重心也逐渐转向推理。一旦TPU进入推理业务领域,将对AMD形成很大的压力。对于AMD来说,能否像TPU一样在推理场景中展现强劲性能,是一个巨大的挑战。用户在某些应用场景下会发现TPU的性价比明显优于GPU,这使得AMD在该领域处于劣势。与英伟达不同,AMD无法在训练和推理两个市场实现平衡,目前只能在推理市场保持一定竞争力。如果TPU进一步进入推理市场,对AMD的冲击会较大。但短期内影响有限,因为市场还在部署阶段,TPU仍处于爬坡期,AMD仍有机会。但到中后期,如果AMD的产品无法展现性价比优势,可能会失去刚刚获得的市场份额,被TPU夺走。

二、英伟达应对TPU竞争的策略

问:展望英伟达会采取哪些对策来应对TPU的竞争?比如降价保份额,还是维持利润率,或者通过CPX等产品进行竞争?

答:英伟达在这方面一直有所准备。它通过CPX(也称为VR200)产品与TPU展开竞争,提升自身在推理领域的性价比优势。CPX的设计目标就是针对推理场景进行PD分离优化。如果英伟达能够在这方面做到极致,就能在与TPU的竞争中展现出更强的性价比优势。目前英伟达正在储备相关技术,以便在市场竞争中保持主动。

三、客户对英伟达CPX和谷歌TPU的评价

问:展望客户对英伟达的CPX和谷歌TPU有什么评价?

答:英伟达的产品在部署时,客户需要做的适配和改动相对较少,因此客户普遍认为部署难度不大。唯一的挑战在于如何充分发挥新平台的性能,这取决于英伟达自身的优化工作是否到位。如果谷歌能提供良好的体验,客户会愿意尝试TPU,并且满意度较高。但如果谷歌的体验不理想,客户对英伟达产品的兴趣会有所回升。英伟达会根据客户反馈不断完善产品性能,一旦优化到位,甚至有可能在性能上超越TPU。当前用户还需要时间进行体验和测试,最终才能决定选择哪一方。英伟达至少拥有备选方案,可以通过大力优化产品,缩小与TPU的差距,甚至有可能实现超越。

四、TPU扩产瓶颈

问:展望如果TPU市场份额持续扩大,比如年增速达到三四十,出货量达到四五百万等以上,扩产的瓶颈可能会出现在哪里?

答:谷歌目前正与英特尔合作芯片封装,以解决封测端的瓶颈。此前台积电在CoWoS封测方面,超过70%的产能都分配给了英伟达,且短期内台积电没有大规模扩产计划。如果谷歌的需求短期内大幅增长,封测环节可能成为主要瓶颈。产能方面,目前英伟达在台积电并非独占,虽然份额较大,但与苹果、高通等其他先进制程客户共用产线。谷歌仍有机会争取到一定产能。谷歌需要根据客户需求和市场预判,提前向台积电下单抢占产能,同时通过英特尔的封测补充产能。只要谷歌能做出积极且准确的市场判断,基本可以保障台积电的产能供应,不会出现严重的供应链问题。此外,英特尔在封测方面也能作为备份。因此,谷歌出现产能瓶颈的可能性不大。

五、英伟达抢占CoWoS产能

问:展望英伟达是否会像前几年一样,多抢一些CoWoS产能,限制其他厂商扩产?

答:是否抢产能取决于对未来市场的判断。如果对市场增长和占有率非常乐观,可以提前抢占产能,但如果判断失误,可能导致大量库存积压。英伟达通常不会采取极端激进的策略,而是根据客户实际需求和反馈匹配产能。即使客户有大量订单,英伟达也会进行订单排序和排期,优先响应重要客户,而不会盲目扩大生产导致库存风险。英伟达始终根据客户需求安排生产,不会对所有订单百分百接受。双方都可以提前下单预定产能,但不会出现单方面极端抢产能、压制对方的情况。这与传统供应链模式差异太大,英伟达和谷歌都不会采取这种策略。

六、产业链合作倾向

问:展望下,从产业链关系来看,台积电与英伟达,还是台积电和博通,比如其它的存储厂商又倾向于与谁合作?

答:台积电在高端产能方面,与英伟达、苹果、高通等厂商关系更为紧密。但英伟达和博通在台积电使用的制程有很多重叠点,主要采用非最先进的一代制程,市场份额接近。未来谷歌如果继续依赖博通向台积电预定产能,英伟达和博通在台积电的地位差别不大,关键在于谁能更早预定产能,抢占市场份额。

问:存储厂商如美光、海力士、铠侠、闪迪等呢?

答:可能优先与英伟达合作。英伟达在认证、评测和技术领先性方面高于谷歌和博通,能够提出接近行业标准的需求。存储厂商更愿意获得英伟达的认可和早期评测,再将产品推广到其他用户。英伟达实际上是行业早期标准的制定者,厂商如果不与英伟达合作,产品可能会偏离主流市场需求。

七、博通人力资源

问:展望下,假设TPU出货量未来三四十的增长甚至翻倍,博通在北美的人力资源状况还能覆盖吗?

答:博通拥有约2000人的IC设计团队,人力资源非常充足。团队主要承担两类任务:一是满足内部IC设计需求,包括交换产品和网络产品,这些产品的迭代周期较长,每年仅有一代更新,消耗人力有限。剩余大量资源用于定制化IP研发和对外承接客户定制服务。所以它在资源上一点都不少,2000多人给自己的内部定制化,一般来讲也就消耗几百人的这种水平。剩下还有大批量的人,其实是在做IP的储备,以及给客户做定制化的服务,所以在博通这边他的设计资源还是很充分的。整体来看,博通的设计资源非常充足,团队主要集中在洛杉矶、尔湾,规模庞大。

八、TPU产业链看好环节及份额变化

问:假设TPU未来出货量持续提升,您相对看好产业链上的哪些环节?这些环节中哪些公司可能会有份额变化?

答:TPU产业链中有几个关键环节值得关注。首先是PCB,TPU对PCB的需求与国内产业链密切相关。目前最高端的PCB设计在日本,但主流PCB国内厂商完全可以满足需求,台湾在PCB产能和技术上不如大陆,因此中国在PCB领域已具备先发优势。其次是散热解决方案,过去主要围绕英伟达业务展开,相关厂家集中在台湾,国内厂商多为配套。随着TPU需求增长,谷歌可能会选择国内厂家提供更高效的散热方案,这为国内散热企业带来潜在机会。光通信部分目前只有谷歌在用,核心部件供应商主要在大陆,未来谷歌会继续围绕光通信解决方案推进,这将极大促进国内供应链厂商的发展。电源方面,谷歌目前采用较传统的解决方案,尚未大规模采用HVDC,未来若采用HVDC,可能会为国内相关企业带来机会比如麦格米特,但目前TPU在电源领域还未像英伟达那样激进。存储厂商方面,现有的三星、美光、海力士等产能大部分已被分配给英伟达,未来份额变化还需进一步观察。英伟达已经占据了市场领先地位,如果谷歌未来实现快速增长,也可能会考虑第三方高端内存的供给需求,这对于国内内存厂商来说可能带来一定的潜在机会。下一个值得关注的方向是液冷制冷方案,如果谷歌与国内厂商加强合作,液冷在国内的需求有望进一步提升。过去国内液冷厂商只能为客户提供辅助性支持,而主要解决方案来自台湾。如果谷歌的TPU能与国内液冷厂商进行配合,将极大促进国内液冷产业的发展。

九、TPU未采用HVDC

问:TPU谷歌没有采用HVDC,但其Pod方案功率很高,为什么不使用HVDC?是不是因为不是整体一柜式方案?

答:谷歌目前还没有发展到认为HVDC能带来巨大价值的阶段。以英伟达为例,其单卡功率在峰值TDP时接近1000瓦,而谷歌的TPU功率比英伟达低不少,因此谷歌在这方面并不急于采用HVDC。HVDC还需要进一步验证,目前在GB中尚未大规模使用,可能要到下一代Robin才会大规模部署。因此,谷歌的TPU还有时间进行考察和评测,不会很快采用HVDC。

问:谷歌V7超大集群的Pod方案是怎样的?

答:谷歌采用的是通用电源解决方案,没有使用HVDC,因为其机架功耗比英伟达低很多,传统电源完全可以满足需求,所以谷歌在这方面并不积极。相比之下,英伟达非常重视提升电源转换效率,因为其单卡功耗已达2000瓦,远高于TPU。GPU更关注大规模集群的供电方案,而英伟达在单台计算机上就已经关注HVDC,甚至细化到机架内部的具体计算单元都在考虑HVDC。谷歌目前还不需要如此细致,使用传统PDU就足够了。

十、北美缺电情况

问:展望北美缺电的情况如何?缺电的言论挺多,但也有人认为并没有明显缺电现象,您怎么看?

答:北美缺电主要看区域,不同区域的电力供应情况不同。整体而言,北美并不是电力短缺,而是算力中心建设周期变长。一般每个地区会预留30%~40%的富余电量,如果充分利用,这段时间内北美并不存在缺电问题。现在GPU没有地方上架,主要原因是IDC建设周期比以前长,建设要求和指标明显提高,涉及配套变压器、电缆、散热、基础设施等,数据中心建成后部署、维护、调试的要求也提升,导致交付延期,进而影响GPU上架时间。实际上很多地方并不缺电,只是电力分配存在区域性不均。整体来看,2026年算力中心建设的电力供应是充足的,但最大的问题是建设周期变长和复杂。到2027年,如果基础设施投入仍保持高速度和热度,可能会出现电力紧张,因为大部分电力在2026年消耗,若电力建设跟不上,2027年可能出现问题。电力供应方也在审慎投资,担心算力需求下降导致电力建设空置。目前来看,2026年电力缺口不大,主要是建设时间比预期更长、更复杂。

十一、TPU与英伟达GB系列TCO对比及GPU和TPU配比

问:展望meta和anthropic的TPU与英伟达GB系列产品在TCO方面差距有多大?如果考虑后续模型迭代,TCO差别会有变化吗?长期来看,如何看待GPU和TPU的配比关系?

答:个人与这两家公司进行了讨论,目前从指标来看,TPU与英伟达GB系列在性能上非常接近。但在客户实际应用场景中,如果不进行优化,综合评估下来TPU的性价比优势大约在30%左右,这一结果稍有些出乎意料,分析后发现主要是价格因素,TPU价格几乎只有GPU的一半,性价比优势明显。如果很多模型在GPU上没有进行优化,直接迁移到TPU上运行,可能会有性能损失。在开箱即用的情况下,TPU的性价比优势在30%左右是合理的。相比英伟达,TPU性价比约为1.3倍,这也是许多客户愿意尝试TPU的原因。对于很多推理业务场景来说,1.3倍是可以作为第二替代方案的门槛。如果未来优化进一步提升,TPU的性价比优势有可能达到GB的一倍甚至更多,但前提是需要针对TPU进行深度模型优化,这一过程挑战较大。目前来看,开箱即用的性价比优势是30%,可以接受。未来如果经过优化和部署,TPU有望获得一倍以上的性价比优势。Meta在TPU上的优化和部署是否能实现这一目标,还需持续关注,目前两家公司都认为前景光明,愿意投入资源,业内也在等待最终评测结果。理论上,TPU的性价比至少可以达到一倍。

问:刚提到的性价比,是指谷歌自用,还是针对购买TPU的客户?

答:性价比是针对购买TPU的客户而言。谷歌自用的性价比为1.7。

举报本楼

本帖有 4 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-12-9 12:07 , Processed in 0.170074 second(s), 16 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部