通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  大元帅

注册:2007-12-102366
跳转到指定楼层
1#
发表于 2025-12-30 14:22:28 |只看该作者 |倒序浏览
NVIDIA 计划凭借下一代 Feynman 芯片主导推理堆栈,因为该公司可以将 LPU 单元集成到架构中。

乍看之下,NVIDIA 就 Groq 的 LPU 单元达成的 IP 授权协议似乎只是小打小闹,毕竟收购规模和涉及的营收数额都相当庞大。但实际上,NVIDIA 的目标是通过 LPU 在推理领域占据领先地位,我们此前已对此进行了深入报道。至于 NVIDIA 将如何整合 LPU,目前已有多种方案;

不过,根据GPU 专家 AGF 的观点,LPU 单元或许会通过台积电的混合键合技术堆叠在下一代 Feynman GPU 上。


英伟达要堵死ASIC的道路


专家认为,该方案的实现方式可能类似于AMD在X3D CPU上的做法,即利用台积电的SoIC混合键合技术将3D V-Cache芯片集成到主计算芯片上。AGF指出,考虑到SRAM的扩展性有限,将SRAM集成到单芯片上可能并非Feynman GPU的正确选择,因为采用先进工艺节点会浪费高端硅片,并大幅增加每片晶圆的成本。AGF认为,NVIDIA会将LPU单元堆叠到Feynman计算芯片上。

AGF表示,Groq LPU 模块将于 2028 年首次出现在 Feynman(Rubin 后世代)。

确定性、编译器驱动的数据流,配合静态低延迟调度和低批处理场景中的高模型浮点利用率(MFU),将在有利工作负载下为费曼带来巨大的推理性能提升。

但单片芯片的 SRAM 缩放停滞非常严苛:位元单元面积从 N5(~0.021 μm2)到 N3E 几乎没有变化,甚至 N2 也只能达到~0.0175 μm2,密度为~38 Mb/mm2。这是一种非常昂贵的晶圆面积使用。

NVIDIA Feynman 在台积电 A16 上,配备背面供电+全 GAA 将面临 SRAM 的门槛和成本压力。

那么解决方案是什么?

很简单,就是制作分离的 SRAM 芯片,并将它们叠放在主计算芯片(也就是 AMD X3D)上。背面电源传输简化了顶部的高密度混合粘结,使 3D 叠加垂直集成 SRAM 更实用,即避免前端布线的噩梦。

所以预计 Feynman 核心会在 A16 上混合逻辑/计算芯片,实现最大密度/孔径+堆叠 SRAM,在更便宜/成熟的节点上实现极高封装带宽且不会带来巨大密度损失。

这保留了 HBM 作为容量(训练/预填充),而 SRAM 堆栈则修复低延迟解码 MFU,这正是 Pouladian 的“作弊码”。

这似乎让厂商放弃了所有 ASIC 成功的机会....

现在看来,这种方案似乎合情合理。方案中,像A16(1.6nm)这样的芯片将用于主Feynman芯片,其中包含计算模块(张量单元、控制逻辑等),而独立的LPU芯片则包含大型SRAM存储体。此外,为了将这些芯片连接起来,台积电的混合键合技术至关重要,因为它能够实现宽接口,并且与封装外存储器相比,每比特能耗更低。更重要的是,由于A16采用背面供电设计,正面可以用于垂直SRAM连接,从而确保低延迟解码响应。

然而,这种技术也存在一些问题,例如NVIDIA将如何应对散热限制,因为在高计算密度的工艺流程中堆叠芯片本身就是一个挑战。而且,对于专注于持续吞吐量的LPU来说,这可能会造成瓶颈。更重要的是,这种方法也会极大地增加执行层面的影响,因为LPU依赖于固定的执行顺序,这自然会在确定性和灵活性之间造成冲突。

即使NVIDIA能够解决硬件层面的限制,主要问题仍然在于CUDA在LPU式执行模式下的行为,因为它需要显式的内存分配,而CUDA内核的设计初衷是面向硬件抽象。对于NVIDIA来说,将SRAM集成到AI架构中并非易事,因为这需要精湛的工程技术才能确保LPU-GPU环境得到充分优化。然而,如果NVIDIA想要在推理领域保持领先地位,这或许是它愿意付出的代价。


Groq 的 LPU 架构是关键


过去几个月,人工智能行业的计算需求发生了翻天覆地的变化。像OpenAI、Meta、Google等公司在致力于训练前沿模型的同时,也在寻求构建强大的推理堆栈,因为这才是大多数超大规模数据中心的主要盈利点。

谷歌发布 Ironwood TPU 时,业界将其吹捧为专注于推理的利器,而这款 ASIC 芯片也被誉为英伟达的替代品,这主要是因为当时有说法称 Jensen 尚未推出一款在推理吞吐量方面占据主导地位的解决方案。我们有 Rubin CPX,但我稍后会讨论它。谈到推理,计算需求会发生显著变化,因为在训练过程中,业界更看重吞吐量而非延迟和高运算强度,这也是为什么现代加速器都配备了 HBM 和海量张量核心的原因。

由于超大规模数据中心正转向推理,它们现在需要快速、可预测且前馈式的执行引擎,因为响应延迟是主要瓶颈。为了实现快速计算,NVIDIA 等公司针对大规模上下文推理(预填充和通用推理)等工作负载推出了 Rubin CPX,而 Google 则宣称其 TPU 方案具有更高的能效。然而,在解码方面,可供选择的方案并不多。

解码是指Transformer模型推理过程中的词元生成阶段,它作为人工智能工作负载分类的关键环节,其重要性日益凸显。解码需要确定性和低延迟,而考虑到推理环境中使用HBM带来的限制(延迟和功耗),Groq的独特之处在于它使用了SRAM(静态随机存取存储器)。既然我已经阐明了为什么需要重新审视推理计算,现在是时候讨论LPU了。

LPU是 Groq 前 CEO Jonathan Ross 的杰作,顺便一提,他最近已加入 NVIDIA。Ross 因其在 Google TPU 方面的工作而闻名,因此我们可以肯定,NVIDIA 正在内部获得一项重要的资产。LPU 是 Groq 针对推理类工作负载的解决方案,该公司区别于其他公司的关键在于其两大核心优势。首先是确定性执行和片上 SRAM 作为主要权重存储。这是 Groq 通过确保可预测性来提升速度的方法。

Groq此前已展示了两款领先的解决方案:GroqChip和基于合作伙伴的GroqCard。根据官方文件披露的信息,这些芯片配备230MB片上SRAM,片上内存带宽高达80TB/s。SRAM的使用是LPU的关键优势之一,因为它能显著降低延迟。与HBM相比,考虑到DRAM访问和内存控制器队列带来的延迟,SRAM的优势显而易见。片上SRAM使Groq能够实现数十TB/s的内部带宽,从而提供领先的吞吐量。

SRAM 还使 Groq 能够提供一个节能平台,因为访问 SRAM 所需的每比特能量显著降低,并消除了 PHY 开销。此外,在解码过程中,LPU 显著降低了每个令牌的能耗,考虑到解码工作负载是内存密集型的,这一点至关重要。这是 LPU 的架构方面,虽然这看似重要,但这只是 LPU 性能的一部分。另一个关键因素是利用确定性周期,即通过编译时调度来消除内核间的时间差异。

编译时调度确保解码流水线中不存在“延迟”,这是一个至关重要的因素,因为它能够实现流水线的完美利用,从而相对于现代加速器实现更高的吞吐量。总而言之,LPU 完全专用于满足超大规模数据中心所需的推理功能,但业界目前忽略了一个关键问题。LPU 是真实有效的推理硬件,但它们高度专业化,尚未成为主流的默认平台,而这正是 NVIDIA 的用武之地。


除了上述AGF的方法,将LPU集成到NVIDIA产品中的另一种方法是将其作为机架级推理系统(类似于Rubin CPX)的一部分,并搭配网络基础设施。这样一来,GPU可以处理预填充/长上下文信息,而LPU则专注于解码,这意味着在推理任务方面,NVIDIA已经解决了所有问题。这有望将LPU从实验性选项转变为标准推理方法,从而确保其在超大规模数据中心得到广泛应用。

毫无疑问,这笔交易标志着英伟达在推进其产品组合方面取得的最大成就之一,因为所有迹象都表明,推理将是英伟达接下来要讨论的选项,而 LPU 将成为该公司在人工智能工作负载领域战略的核心部分。


为了规避反垄断风险,选择授权


在日勤,CNBC率先报道了这一消息,声称英伟达将以200亿美元的巨额交易“收购”Groq公司,这将是詹森·黄仁勋迄今为止最大的一笔收购。此消息在业内引发轩然大波,有人认为监管调查会阻碍这笔交易,也有人断言Groq的末日已至。然而,随后Groq在其官网上发布官方声明,称已与英伟达达成“非独家许可协议”,授予这家人工智能巨头使用其推理技术的权利。

“我们计划将 Groq 的低延迟处理器集成到 NVIDIA AI Factory 架构中,从而扩展该平台,使其能够服务于更广泛的 AI 推理和实时工作负载。虽然我们正在吸纳优秀人才并购买 Groq 的知识产权许可,但我们不会收购 Groq 这家公司。”英伟达首席执行官黄仁勋在一封内部邮件中表示

因此,在Groq发表声明后,至少从表面上看,合并的说法不攻自破。现在看来,这一系列事件颇为耐人寻味,尤其是考虑到这笔交易距离被视为全面收购只差一步之遥,那就是官方披露中未提及此事。

这是英伟达典型的“反向收购”策略。如果有人不知道这意味着什么,这是微软的惯用伎俩。早在2024年,这家科技巨头就宣布以6.53亿美元收购Inflection,其中包括Mustafa Suleyman和Karén Simonya等人加入微软,后者曾是微软人工智能战略的先锋。

反向收购是指一家公司从一家初创公司挖走关键人才,并保留“最基本的”公司架构,从而避免被认定为合并。现在看来,詹森似乎也采用了类似的策略来规避美国联邦贸易委员会(FTC)的调查。他将与Groq的交易包装成“非独家许可协议”,从而使英伟达实际上游离于《哈特-斯科特-罗迪诺反垄断改进法案》(HSR法案)的管辖范围之外。值得注意的是,Groq提到GroqCloud将继续运营,但仅以“精简架构”的形式存在。

事情的经过是这样的:英伟达斥资200亿美元收购了Groq的人才和知识产权,并成功避开了监管调查,从而在短短几天内就完成了交易。而谈到他们现在拥有的硬件资源,这才是英伟达收购Groq这笔交易中最引人注目的部分。


举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-12-31 06:22 , Processed in 0.166266 second(s), 15 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部