通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  大元帅

注册:2007-12-102434
跳转到指定楼层
1#
发表于 2026-1-30 11:25:51 |只看该作者 |倒序浏览

2026年1月初,美国知名半导体与AI研究机构SemiAnalysis披露,人工智能公司Anthropic计划直接采购近一百万颗谷歌最新一代TPU v7系列芯片。相关交易尚未得到谷歌确认,但已引发广泛关注。

长期以来,在大模型训练与推理的核心算力市场,英伟达的GPU(图形处理器)几乎是最优选择。凭借其强大的CUDA软件生态和通用计算能力,英伟达得以制霸行业基础设施。

相比之下,谷歌自研的TPU(张量处理器)虽存在多年,却鲜少进入公众视野。

变化发生在过去一年。全球两款顶尖大模型——谷歌的Gemini 3和Anthropic的Claude 4.5 Opus,被爆出大部分训练和推理都依赖于TPU。苹果、Meta、Midjourney甚至OpenAI,也都传出在不同场景下已使用或计划使用TPU的消息。

与此同时,谷歌对TPU的供给方式,也从单纯依附云服务租赁,转向更为灵活的商业化路径。TPU与GPU究竟有何不同?它是否正在成为AI算力竞争中的有力变量?

为谷歌而生

TPU的诞生,源于谷歌内部的一场算力危机。

早在2006年,谷歌就考虑过为人工智能构建专用芯片(ASIC)的可能性。但直到2013年,谷歌才真正意识到,未来对AI计算的需求,或将远超当时基础设施所能承载的上限。

那时,谷歌正计划在全球范围内推出语音识别功能。其首席科学家杰夫·迪恩(Jeffrey Dean)曾在采访中介绍,团队做过粗略估算,如果数亿用户每天使用3分钟语音识别服务,所需算力将是谷歌全部数据中心算力的两倍。

谷歌团队评估了多种现有方案,结论是它们甚至难以满足其产品当下的基础机器学习需求,更无法支持未来增长。于是,谷歌决定设计一种全新的芯片。

硬件工程师诺曼·乔皮(Norman Jouppi)于2013年加入谷歌,成为TPU项目的关键推动者之一。

他后来向媒体回忆,团队曾考虑像微软一样,采用FPGA(可编程芯片)路线。这类芯片可以按需编程以适配不同任务。但在实际测试中,它在AI计算上的性能表现并不优于GPU,成本还更高。最终,团队转向自研专用芯片TPU。

按照谷歌的划分,CPU(中央处理器)如同计算机的“通用大脑”,处理各类复杂指令;GPU(图形处理器)配合CPU,用于图形处理、图像渲染和复杂的数学计算。

而TPU只专注一件事,高效执行AI所需的大量矩阵运算。其核心在于一种名为“脉动阵列”的架构。

CPU和GPU的计算方式,本质上都是指令驱动型,为了通用性,数据在计算过程中往往需要被反复读取和搬运。

而在TPU里,成千上万个乘加单元被紧密排列在一起。当进行矩阵运算时,数据像“波浪”一样在芯片内部连续流动,每个数值只需读取一次,就可以被反复用于大量运算,并支持较低精度的计算。

出于极简主义的设计理念,TPU还舍弃了CPU和GPU中大量复杂的控制结构与机制,使芯片结构更简单、面积更小。

这些优势的另一面是局限。深度研究院院长张孝荣对南方周末记者介绍,TPU不擅长处理动态、不规则的计算任务,如复杂的科学模拟、图形渲染或模型架构频繁变动的研究阶段。

2015年,谷歌在内部部署了首款TPU v1,主要用于AI推理,帮助已训练好的模型更快完成任务。为了尽快投入使用,谷歌选择将这款芯片封装为一张外置加速卡,能够直接插入服务器,实现即插即用。

根据诺曼·乔皮及其团队随后发表的论文,尽管TPU v1在某些应用中的利用率并不高,但其平均速度比同时代的英特尔Haswell CPU和英伟达K80 GPU快15—30倍,能效比(TOPS/Watt)高出约30—80倍。

之后,TPU v1被广泛用于谷歌各项业务中,包括搜索排序、地图街景和智能回复等。在2016年的谷歌开发者大会上,谷歌首次向外界介绍TPU,并披露AlphaGo也借助TPU,得以在与韩国围棋名将李世石的对弈中更快思考。

乔皮回忆称,在TPU v1制造阶段,团队已意识到,仅提升现有模型运行速度并不够支撑AI发展,训练能力才是制约模型的关键瓶颈。因此,自2017年推出TPU v2起,谷歌在芯片设计上开始兼顾模型训练与推理,并刻意保留一定灵活性。

“我们并不知道2到8年后模型会是什么样子,但可以确定的是,它们仍将建立在张量数学之上。”乔皮表示。正因如此,谷歌选择放弃最后10%—20%的优化空间,以避免芯片因过度专用化而在短时间内迅速过时。

顺势登台

“AI大模型对算力的需求发生了质变。”张孝荣分析,TPU近来受到热捧,与大模型规模爆炸式增长直接相关,通用GPU(如英伟达)在能效和成本上的瓶颈逐渐显现。AI算力进入“硬核节能”阶段,TPU成为新选择。

华福证券研报指出,进入AI大爆发时代后,低精度运算成为大规模AI训练和推理的标签特征。模型厂商有时愿意牺牲精度以换取大模型训练的计算能力。这正是TPU的设计初衷。

而当模型规模持续放大,问题不再是一块芯片够不够快,而是成千上万块芯片如何在一起工作。

2017年,谷歌推出TPU v2后,便将集群化作为TPU的核心设计方向,并以Pod形态部署数百颗芯片协同工作,并在之后引入光互连技术,持续提升集群扩展性。

到最新一代产品时,此优势被进一步放大。2025年4月,谷歌发布第七代TPU,单集群最多支持9216颗芯片互联,规模远超主流GPU体系常见的64或72颗水平。

在张孝荣看来,大模型公司选择TPU,核心是权衡“专用效率”与“通用生态”。在模型架构稳定、追求极致训练速度和能效时,TPU的成本效益变得尤为突出。

据SemiAnalysis测算,在谷歌自用口径下,TPUv7相比英伟达GB200的总拥有成本(TCO)低约44%;即便对外租赁,客户使用TPU v7的TCO仍比租用英伟达GB200低约20%。TCO可理解为,长期使用整套算力系统所要付出的全部成本。

不过,优势伴随取舍,并非适合所有公司。张孝荣表示,选择TPU虽能实现算力供应链多元化,降低对单一供应商的依赖,但也意味着深度绑定谷歌的云平台和软件生态,需要在灵活性上做出妥协。

这对于中小模型公司可能难以承受,但对算力规模巨大的大公司来说,或许是一种可接受的交换。事实上,TPU的存在本身已开始改变算力市场的谈判结构。

环球网援引外媒消息称,2025年6月,OpenAI正在对谷歌TPU进行早期测试。

SemiAnalysis披露,仅凭转向TPU的可能性,OpenAI在与英伟达的谈判中便获得了约30%的折扣。

张孝荣也提醒,TPU的成功高度依赖谷歌的“数据-软件-硬件”闭环生态。其设计源于谷歌自身海量、固定的AI计算需求,并由其TensorFlow/JAX等软件深度优化。脱离这个生态,TPU一无所用。

但他同时认为,路径一旦走通,TPU专用架构的思想具有普适性,其他有类似条件的大厂(如亚马逊、微软)可能也会加码跟进自研芯片。

打破垄断

谷歌TPU的存在感已无法忽视。

2025年11月,谷歌发布Gemini 3系列模型,自称迄今为止“最智能的模型”。其性能表现确实在一系列基准测试中超越竞争对手。

英伟达随即通过社交媒体发声,先是对谷歌取得的成绩表示祝贺,但强调其仍在持续向谷歌供货。

英伟达同时表示,自家产品领先行业一代,是目前唯一能够运行所有AI模型、覆盖所有计算场景的平台。相比ASIC专用芯片,其在性能、通用性和可替代性方面具备更大优势。

2018年,谷歌开始向云服务客户开放TPU租赁,但并未直接对外发售硬件。此后,AI绘画工具Midjourney,Anthropic,苹果等先后通过谷歌云成为TPU核心客户。

但情况正在变化。据SemiAnalysis披露,过去几个月,谷歌已调动整个技术栈的力量,通过云服务或以供应商身份尝试销售完整的TPU系统。

2025年10月,Anthropic确认会部署100万颗谷歌TPU。但当时SemiAnalysis披露的交易细节是,60万颗通过谷歌云租赁,40万颗直接向TPU合作开发商博通(Broadcom)购买。

而最新传出的情况显示,这批近百万颗TPU v7或由Anthropic直接向博通采购完整的硬件系统,部署在Anthropic的自有设施中。

按此方式,谷歌将通过IP授权、软件服务等获得收益。虽仍未像英伟达等芯片厂商那样直接售卖产品,但客户向博通采购TPU也需获得谷歌许可。目前,谷歌持有Anthropic约14%的股份。

张孝荣判断,此前TPU主要为拉动谷歌云业务。若从“只租不卖”转向“直接销售”,则表明谷歌希望将TPU打造为对标英伟达的独立算力产品,以扩大生态和市场份额。这也反映了市场对于算力部署方式(云+本地)的多样化需求。

“谷歌TPU打破了英伟达在AI训练市场的垄断,证明了专用路线的可行性。”张孝荣认为,但这目前只是一种补充,英伟达不会被轻易替代。未来市场更可能形成“GPU主攻训练与探索,TPU类芯片主攻专用推理与量产”的混合格局。

可以确定的是,TPU已经成为英伟达绕不开的话题。

2026年1月5日,英伟达CEO黄仁勋在CES(国际消费电子展)上发布了面向AI数据中心的新一代计算平台Vera Rubin,首批搭载该系统的产品将于2026年下半年上市。

在随后举行的英伟达财务分析师问答会上,花旗集团分析师首个问题便是,如何比较英伟达最新一代芯片Rubin与TPU在推理阶段的性能。

黄仁勋在回应中暗含机锋。他称英伟达的产品无处不在,长期处在被评测状态;相比之下,除非是做TPU的人,否则外界几乎无法对它进行真正的基准测试。

“如果你们手上有可用的TPU基准数据,我们也很乐意看一看,”黄仁勋说,结果“(Rubin)会非常有竞争力”。

中国样本

在中国杭州,一家名为中昊芯英的企业,正试图以纯正的“谷歌血统”,复制TPU之路。

公开资料显示,该公司创始人杨龚轶凡曾任职于谷歌TPU团队,参与过第2、3、4代TPU的设计与研发工作。

他曾在采访中表示,英伟达GPU之所以形成垄断,是因为专业芯片仍处设计、量产阶段,过程中整个行业应用爆发。

杨龚轶凡判断,未来GPU或只占据10%—20%的市场,其余算力需求将由新兴AI专用芯片承担。他在谷歌见证了TPU的成功应用,并相信TPU将成为AI领域的英特尔X86(长期被视为通用CPU的代名词)。

2018年,杨龚轶凡选择回国创业,2020年,中昊芯英落地杭州,专攻TPU研发。2023年,该公司第一代TPU芯片“刹那”实现量产。

中昊芯英的融资并非一帆风顺。杨龚轶凡回忆,公司最早获得的是美元投资人的支持,对方认可其在谷歌的经验及技术理念,这才逐步带动人民币基金跟进投资。

回国后,融资环境一度趋紧。当时人工智能赛道正遭遇算法瓶颈,大模型尚未出现,行业更倾向于通过“做小模型”降低成本,坚持做大算力芯片的路线普遍被认为市场空间有限。转机出现在公司被引入杭州之后。

杨龚轶凡提到,在行业普遍观望的阶段,浙江国资选择入场投资,并形成示范效应,带动社会资本跟进。随着2023年大模型浪潮爆发,中昊芯英的融资才逐渐变得顺畅起来。

据其官微,中昊芯英是国内少数实现盈利的AI芯片企业之一,2024年营业收入约5.98亿元,归母净利润8590.78万元。基于“刹那”芯片构建的大规模AI计算集群,已在多地政府、运营商及企业参与的超大规模智算中心中落地。

2025年下半年,摩尔线程(688795.SH)和沐曦股份(688802.SH)资本化进程加快,并于12月先后上市,首日股价分别上涨逾400%和600%。市场对中昊芯英的上市进程关注度亦随之升温。

中昊芯英的资本运作也早已展开。2025年8月22日,天普股份(605255.SH)公告称收到中昊芯英的收购要约。

天普股份主营橡塑制品的研发、制造与加工,主要为整车及其一级供应商提供橡胶软管和总成产品。截至2025年三季度,该公司总资产约8.65亿元,资产负债率低至6.76%。

此后,天普股份股价一路暴涨,2025年公司股价涨幅逾16倍,先后因交易波动情况5次停牌核查。

2025年12月25日,天普股份公告交易完成。中昊芯英及其一致行动人合计持有上市公司约68.29%的股权,杨龚轶凡成为上市公司实际控制人。

天普股份多次声明,收购不会改变上市公司的主营业务,中昊芯英三年内不借壳上市。中昊芯英已启动独立自主IPO相关工作,并已进入股改阶段。但市场情绪并未明显降温,股价仍维持高位。

2026年1月9日,天普股份因交易异常波动公告涉嫌重大遗漏,被证监会立案调查。

1月17日,公司在回复上交所问询函时再次强调,将持续推进原有主营业务,中昊芯英的资本证券化路径与上市公司无关,未来三年不存在借壳上市安排。

留给中昊芯英的上市时间并不算充裕。据其与投资方之一科德教育(300192.SZ)在2023年与之达成的协议,若中昊芯英未能在2026年12月31日前完成IPO或被收购,科德教育有权要求其回购所持股份。


举报本楼

本帖有 2 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2026-1-31 07:51 , Processed in 0.295278 second(s), 18 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部