|
股价“跌跌不休”,英伟达都不得不站出来表态,“我们领先了全行业一代”。 事情要从巴菲特“谢幕之作”说起——伯克希尔·哈撒韦公司首次建仓谷歌母公司Alphabet股票,随后更劲爆的是市场又传出英伟达大客户Meta考虑2027年在其数据中心部署谷歌TPU,并于2026年通过谷歌云租用TPU算力。 英伟达在紧急声明中,强调GPU在性能、通用性和可移植性方面“远优于”ASIC(专用集成电路),并重申自研TPU无法替代 GPU的灵活性。谷歌发言人也表示继续和英伟达保持合作关系,并强调公司致力于同时支持TPU和英伟达GPU。 TPU,从一个10年前为了解决AI计算效率瓶颈的“救命项目”,如今已经发展成为谷歌的“经济支柱”。 作为自研ASIC芯片的代表,TPU已经具备动摇英伟达根基的潜力,只不过谷歌的逻辑不是和英伟达比单卡性能,而是在用一套完全不同的超大规模系统哲学,重新定义AI基础设施的未来。 一切都要从10年前,TPU诞生的那一刻说起。 01 TPU的前世今生谷歌在2015年启动TPU项目,这并非出于炫技,更不是为了彰显技术实力,而是被逼入了一个“不自研将难以支撑未来业务规模”的现实。 随着深度学习在谷歌内部的应用不断扩散,谷歌工程团队当时意识到一个关键问题正在逼近——包括搜索、广告等谷歌核心服务都涉及巨量用户请求,如果全面采用深度学习模型,那么谷歌全球数据中心的功耗将暴涨至难以承受的程度,即使采购再多GPU也无法满足需求,更不用说成本上的激增。 彼时GPU更适合训练大规模神经网络,但其能效并非针对实时在线推理设计。 谷歌内部甚至出现过预测:如果未来所有核心业务上线深度模型,全球数据中心的电力成本会增长十倍。内部高层意识到,继续依赖 CPU和GPU的现有路线不可持续。 因此,谷歌决定自研ASIC加速器,目标不是造一个“最强通用芯片”,而是造一个“可大量部署在数据中心、用于特定矩阵运算的高能效芯片”。 最终,TPU v1在2016年正式投入使用,用于支持谷歌翻译以及部分搜索功能,证明了ASIC方案具备可行性。 2017年Transformer论文发表后,谷歌几乎在同一时间意识到:这个新架构的计算模式高度规则、矩阵密度极高、并行度惊人,简直是为TPU量身定做的。与其让外部硬件厂商慢慢跟进,不如自己把软件框架、编译器、芯片架构、网络拓扑、散热系统全部握在手里,形成全栈闭环。 于是,TPU不再是一个孤立的芯片,而升级为谷歌AI基础设施的底座:既要训练出世界最强的模型,也要让AI以最低成本渗透到公司每一条产品线。 从v2、v3开始,谷歌逐步开放TPU给谷歌云客户,正式进入商业化阶段。 虽然早期生态和兼容性仍逊于GPU,但谷歌用XLA编译器、高效Pod架构、液冷数据中心、软硬件深度共设计,硬生生蹚出一条差异化道路。 2021年,TPU v4横空出世,第一次把4096颗芯片组成一个超节点,靠自研的环形拓扑网络(2D/3D torus)实现近乎无损的跨芯片通信。这套系统让数千颗加速器像一颗“巨型芯片”一样协同工作,直接把谷歌带入超大规模AI时代,PaLM 540B模型正是在v4 Pod上训练完成的。 谷歌用实际行动证明:只要集群规模够大、互联效率够高,模型性能就会随着计算量近乎线性增长,而TPU的网络拓扑和调度系统,正是实现这一规律的最关键硬件支撑。 2023到2024年,TPU v5p成为转折点。 它首次大规模进入谷歌广告系统、搜索核心排序、YouTube推荐、地图实时预测等赚钱产品线,性能较v4翻倍,同时推出弹性节点架构,让企业客户可以按需扩展到近9000颗芯片的规模。 Meta、Anthropic等头部模型公司开始认真评估并采购TPU v5p,这标志着TPU终于从“内部黑科技”成长为“生态可选项”。 2024年发布的第六代TPU v6(代号Trillium)则彻底亮明态度:谷歌未来的主战场不再是训练,而是推理。推理成本正在成为全球AI公司最大的单项支出,v6从架构到指令集全部围绕推理负载重新设计,FP8吞吐暴涨、片上SRAM容量翻倍、KV Cache访问模式深度优化、芯片间带宽大幅提升,能效比上一代提升67%。 谷歌公开表示,这一代TPU的目标是成为“推理时代最省钱的商业引擎”。 从2015年为了解决AI计算的效率瓶颈被迫自研,到2025年即将把TPU部署到客户自有数据中心,谷歌用十年时间,把一个“不得不做的救命项目”,一步步打造成可能撼动英伟达霸权的战略级武器。 TPU从来不是为了和谁比性能,而是为了让AI真正跑得起、赚得到钱。这正是谷歌与众不同的打法,也是它最可怕的地方。 02 从“实验项目”到“数据中心命脉”
2025年,谷歌推出的第七代TPU(TPU v7,代号Ironwood)成为全球AI基础设施领域最受关注的硬件产品。 这一代在架构、规模、可靠性、网络与软件系统上的一次全面重构。 Ironwood的诞生,正式宣告TPU从“追赶者时代”迈入“进攻时代”,也标志着谷歌将推理时代视为未来十年的决战主战场。 Ironwood之所以特殊,首先在于它是TPU历史上第一款专用推理芯片。与此前以训练为主的v5p和以能效为主的v6e不同,Ironwood从第一天起就锁定超大规模在线推理这一终极场景,并在多项关键指标上首次与英伟达Blackwell系列实现正面交锋。 单芯片层面,Ironwood的FP8稠密算力达到4.6 petaFLOPS,略高于Nvidia B200的4.5 petaFLOPS,已跻身全球旗舰加速器第一梯队。内存配置为192GB HBM3e,带宽7.4 TB/s,与B200的192GB/8 TB/s仅一步之遥。芯片间通信带宽9.6 Tbps,虽数字上不及Blackwell的14.4 Tbps,但谷歌走的是一条完全不同的系统级道路,单纯数值对比已失去意义。 真正让Ironwood成为里程碑的,是其超大规模扩展能力。 一个Ironwood Pod可集成9216颗芯片,构成一个超节点,FP8峰值性能超过42.5 exaFLOPS。谷歌在技术文档中指出,在特定FP8负载下,该Pod性能相当于最接近竞品系统的118倍。这不是单芯片差距,而是系统架构与拓扑设计的碾压。 支撑这一规模的核心,是谷歌十年磨一剑的2D/3D环面拓扑结合光路交换(OCS)网络。 与英伟达依赖NVLink+高阶交换机构建的NVL72(仅72颗GPU)不同,谷歌从根本上放弃了传统交换机为中心的设计,转而用三维环面拓扑结构直接连接所有芯片,并通过OCS实现动态光路重构。 OCS本质上是一套“光版人工电话交换台”,利用MEMS微镜在毫秒级完成光信号物理切换,几乎不引入额外延迟,更重要的是,当集群内出现芯片故障时,OCS能瞬间绕开坏点,保持整个计算域不中断。 得益于此,谷歌液冷Ironwood系统的年可用性达到99.999%,即全年停机时间不到六分钟。这一数字在超大规模AI集群中堪称恐怖,远超业界基于GPU的训练集群常见水平。 谷歌已将TPU集群从“实验玩具”彻底升级为“数据中心命脉”。 在推理场景下,Ironwood展现出系统级的降维打击能力。整个节点提供1.77 PB高带宽HBM,所有芯片均可近乎等距访问,这对KV缓存管理至关重要。推理时代最贵的不是算力,而是内存带宽和缓存命中率,Ironwood通过共享巨量高速内存和极低通信开销,大幅减少重复计算。 内部实测显示,同等负载下Ironwood的推理成本较GPU旗舰系统低30%-40%,极端场景下更高。 软件层面同样火力全开。MaxText框架全面支持最新训练与推理技术,GKE拓扑感知调度可根据Pod内实时状态智能分配任务,推理网关支持前缀缓存感知路由。综合优化后,首Token延迟最高下降96%,整体推理成本再降30%。 Ironwood不仅推动Gemini系列继续领跑,也直接撬动外部生态。 Anthropic宣布未来Claude系列的训练与部署将使用多达一百万颗TPU。即使拥有AWS Trainium等备选方案的玩家,也无法忽视Ironwood在超大规模推理上的代际优势。 03 谷歌、英伟达、亚马逊,站在“三岔路口”
CNBC在对AI芯片领域三大玩家——谷歌、英伟达和亚马逊——进行分析后指出,三者都在大规模投入研发,但它们追求的目标、商业模式、生态构建方式、硬件哲学均有显著不同。 这些差异深刻影响了芯片的形态、性能侧重点、客户采用路径以及市场地位。 英伟达的路线始终围绕GPU推进,而GPU的核心价值在于通用性。 GPU具备海量并行计算单元,能够支持从深度学习到图形渲染再到科学计算等多种工作负载。更重要的是CUDA生态几乎锁死了全行业的开发路径,一旦模型或框架为CUDA优化,就很难切换到其他芯片架构。 英伟达通过软硬件深度捆绑实现了类似苹果生态在消费品市场的垄断能力,但GPU的缺陷也十分明显。 首先,GPU并非为推理优化,它的设计初衷是高速并行计算,而不是以最低成本执行重复推理指令。其次,GPU的灵活性意味着其硬件资源在实际推理场景中可能并非最优配置,导致单位能耗的效率不如ASIC。最后,英伟达的定价权极高,云厂商往往需要以远高于制造成本的价格购入GPU,形成今天广为人知的“英伟达税”。 谷歌的路线与英伟达不同。谷歌并不追求硬件通用性,而是追求深度学习特别是Transformer负载的极致效率。TPU的核心是脉动阵列,这是一种专门为矩阵乘法设计的架构,使其在深度学习计算中特别高效。 谷歌不是希望TPU成为行业通用芯片,而是成为全球AI推理和训练最具效能的专用芯片,进而让谷歌整个AI系统做到性能领先、成本最低、部署最广。 谷歌的核心优势在于全栈整合能力。他们不仅控制芯片,还控制模型、框架、编译器、分布式训练系统与数据中心基础设施。这让谷歌可以做出许多GPU无法实现的系统级优化。 例如数据中心网络拓扑完全为TPU超节点服务,软件层面的调度系统能根据模型特性自动调整硬件资源的使用方式。这种“系统级一体化”是英伟达无法做到的,因为英伟达只能控制GPU,而不能控制客户的数据中心。 亚马逊则走了第三条路线,其芯片战略出发点是降低AWS的基础设施成本,同时减少对外部供应商尤其是英伟达的依赖,因此他们开发了Trainium和Inferentia。 作为云厂商,AWS关注的是规模效应与经济性,而非像谷歌那样构建一个统一的AI算力体系。 Trainium的设计更灵活,在不少情况下接近GPU的适配能力,但性能针对训练和推理分别做了优化。Inferentia则聚焦推理,适合高吞吐部署场景。亚马逊通过芯片降低内部成本并将节省部分反馈给客户,从而提升AWS的竞争力。 总体而言,英伟达的路线是通用、生态驱动、软件锁定;谷歌的路线是专用、垂直整合、系统统一;亚马逊的路线是成本优化、云驱动、兼容商业需求。三者的路线差异导致了AI芯片市场中出现了截然不同的产品形式、商业策略与竞争格局。 04 利用TPU,告别昂贵的“CUDA税”
谷歌之所以能够在推理时代获得显著优势,关键并不仅仅在于TPU的硬件性能,更在于其全栈垂直整合策略。 这种策略让谷歌避免了昂贵的“CUDA税”,并在成本结构上相对于OpenAI和其他依赖GPU的企业形成了巨大优势。 所谓CUDA税,是指GPU芯片从生产到销售过程中所叠加的高额利润。 英伟达的GPU成本大约仅几千美元,但卖给云厂商时价格往往动辄数万美元不等,毛利率高达八成以上。全球所有训练大模型的科技公司几乎都要支付这项成本,并且无法摆脱。 OpenAI依赖英伟达GPU进行训练和推理,且由于GPT系列模型参数规模巨大、推理量庞大,其总体算力开支远超大多数企业的总营收。 英伟达的定价模式使这些公司无论怎么优化模型,都难以实现规模化商业利润。 谷歌的策略完全不同。谷歌采用自研TPU进行训练和推理,整个供应链由谷歌控制,从芯片设计到制造、从网络方案到软件栈再到数据中心布局,全部由谷歌内部优化。 由于不需要支付英伟达税,谷歌的算力成本结构天生比OpenAI更具优势。 谷歌不仅在内部获得低成本,还将这种成本优势传递给谷歌云的客户。通过TPU服务,谷歌可以为客户提供更低价格的推理能力,从而吸引大量模型公司和企业迁移到谷歌平台。 根据科技网站venturebeat.com的报道,谷歌在算力成本上的结构性优势远远优于OpenAI。这意味着,谷歌提供同等推理服务时,其底层成本可能仅为对手的两成。如此大的成本差异在推理时代具有决定性意义。 当企业的推理成本占到其支出的大部分时,迁移到成本最低的平台就成为必然选择。例如,一个企业每年可能在推理上消耗数千万美元甚至上亿美元,如果迁移到TPU可以节省三到五成成本,那么迁移几乎是一种不可回避的商业决策。 谷歌还推出了TPU@Premises计划,将TPU直接部署在企业数据中心,使客户可以在本地以最低延迟使用推理能力。这再次强化了谷歌的成本优势,进一步扩大TPU的商业辐射范围。 在OpenAI的商业模式中,其最重要的成本来自算力,而在谷歌的商业模式中,其算力成本是自研产品体系的一部分,可以通过谷歌云收回投资。谷歌在硬件、软件、网络和云基础设施上的深度融合,使其具备真正意义上的垂直整合能力。 这种整合不是简单节省成本,而是在推动整个生态的重新配置。 随着越来越多企业意识到推理成本的重要性,谷歌的成本优势将不断被放大,TPU的市场份额也将在推理时代获得更快增长。TPU的垂直整合策略最终不仅是谷歌的竞争策略,更是对整个行业竞争秩序的重塑力量。 05 谷歌的“经济支柱”回顾TPU的发展史,可以看到一个典型的“追赶到领先”的演变轨迹。 早期TPU在生态成熟度、兼容性和训练性能方面落后于GPU,外界普遍认为谷歌在AI大模型时代被OpenA 超越。然而这种外部印象忽略了谷歌在基础设施层面的深度积累,也忽略了谷歌在全栈系统上的独特优势。 随着Gemini系列模型逐代升级,谷歌逐步证明自己仍然是全球少数可以实现训练稳定性、推理成本控制和全栈性能优化的公司,TPU在其中扮演了关键角色。 Gemini 2.0多模态模型的训练和推理都在TPU上完成,而TPU的高效能使谷歌能够以相对低成本训练大规模模型,使模型迭代周期更短、成本更低。 随着公司进入推理时代,TPU的作用从支持谷歌内部模型转向支持全球企业客户。谷歌云的AI收入随之大幅增加,云部门的财报显示全年化收入达到440亿美元,并成为谷歌整体业绩增长的重要驱动力。 谷歌在云市场的竞争地位长期落后于AWS和Azure,但在AI时代出现了新的赛道,在AI基础设施方面实现领先。这一领先并非偶然,而是TPU多年积累后的自然结果。 在企业AI采用加速的大背景下,越来越多公司需要推理成本低、稳定性高、性能强的模型部署方案。GPU虽然性能强,但成本和供货都存在限制,而TPU提供了更具经济性和稳定性的替代方案。尤其在大规模在线推理场景中,TPU的优势尤为明显。 更重要的是,谷歌并非只以芯片作为卖点,而是以整体解决方案吸引企业。 例如谷歌提供从模型训练、模型监控、向量数据库、推理服务到数据安全的一体化体系,TPU在其中作为最底层基础设施发挥作用。谷歌将自己塑造为企业采用AI的完整平台,使其与AWS和Azure在差异化竞争中获得新的优势。 未来几年,AI行业的竞争将从模型维度转向成本维度,从训练能力转向推理规模,从生态构建转向基础设施整合。谷歌凭借 TPU、全球数据中心布局、代际升级节奏和全栈能力,有望在这一新周期中构建比过去十年更牢固的竞争壁垒。 谷歌从追赶者转向领先者的过程并非一蹴而就,而是在十年时间里持续投入基础设施、坚持自研、不断调整模型路线的结果。TPU是谷歌在AI时代构建的最长久、最深层、最具战略意义的资产,而这一资产正在成为推动谷歌市值增长、云业务崛起和AI商业模式重塑的主力引擎。
|