查看: 277|回复: 1

英伟达封死了ASIC的后路？ [复制链接]

coffee198375

军衔等级：

大元帅

注册：2007-12-10 点赞数

2366

电梯直达

1^# 大中小

发表于 2025-12-30 14:22:28 |只看该作者 |倒序浏览

NVIDIA 计划凭借下一代 Feynman 芯片主导推理堆栈，因为该公司可以将 LPU 单元集成到架构中。

乍看之下，NVIDIA 就 Groq 的 LPU 单元达成的 IP 授权协议似乎只是小打小闹，毕竟收购规模和涉及的营收数额都相当庞大。但实际上，NVIDIA 的目标是通过 LPU 在推理领域占据领先地位，我们此前已对此进行了深入报道。至于 NVIDIA 将如何整合 LPU，目前已有多种方案；

不过，根据GPU 专家 AGF 的观点，LPU 单元或许会通过台积电的混合键合技术堆叠在下一代 Feynman GPU 上。

英伟达要堵死ASIC的道路

专家认为，该方案的实现方式可能类似于AMD在X3D CPU上的做法，即利用台积电的SoIC混合键合技术将3D V-Cache芯片集成到主计算芯片上。AGF指出，考虑到SRAM的扩展性有限，将SRAM集成到单芯片上可能并非Feynman GPU的正确选择，因为采用先进工艺节点会浪费高端硅片，并大幅增加每片晶圆的成本。AGF认为，NVIDIA会将LPU单元堆叠到Feynman计算芯片上。

AGF表示，Groq LPU 模块将于 2028 年首次出现在 Feynman（Rubin 后世代）。

确定性、编译器驱动的数据流，配合静态低延迟调度和低批处理场景中的高模型浮点利用率（MFU），将在有利工作负载下为费曼带来巨大的推理性能提升。

但单片芯片的 SRAM 缩放停滞非常严苛：位元单元面积从 N5（~0.021 μm2）到 N3E 几乎没有变化，甚至 N2 也只能达到~0.0175 μm2，密度为~38 Mb/mm2。这是一种非常昂贵的晶圆面积使用。

NVIDIA Feynman 在台积电 A16 上，配备背面供电+全 GAA 将面临 SRAM 的门槛和成本压力。

那么解决方案是什么？

很简单，就是制作分离的 SRAM 芯片，并将它们叠放在主计算芯片（也就是 AMD X3D）上。背面电源传输简化了顶部的高密度混合粘结，使 3D 叠加垂直集成 SRAM 更实用，即避免前端布线的噩梦。

所以预计 Feynman 核心会在 A16 上混合逻辑/计算芯片，实现最大密度/孔径+堆叠 SRAM，在更便宜/成熟的节点上实现极高封装带宽且不会带来巨大密度损失。

这保留了 HBM 作为容量（训练/预填充），而 SRAM 堆栈则修复低延迟解码 MFU，这正是 Pouladian 的“作弊码”。

这似乎让厂商放弃了所有 ASIC 成功的机会....

现在看来，这种方案似乎合情合理。方案中，像A16（1.6nm）这样的芯片将用于主Feynman芯片，其中包含计算模块（张量单元、控制逻辑等），而独立的LPU芯片则包含大型SRAM存储体。此外，为了将这些芯片连接起来，台积电的混合键合技术至关重要，因为它能够实现宽接口，并且与封装外存储器相比，每比特能耗更低。更重要的是，由于A16采用背面供电设计，正面可以用于垂直SRAM连接，从而确保低延迟解码响应。

然而，这种技术也存在一些问题，例如NVIDIA将如何应对散热限制，因为在高计算密度的工艺流程中堆叠芯片本身就是一个挑战。而且，对于专注于持续吞吐量的LPU来说，这可能会造成瓶颈。更重要的是，这种方法也会极大地增加执行层面的影响，因为LPU依赖于固定的执行顺序，这自然会在确定性和灵活性之间造成冲突。

即使NVIDIA能够解决硬件层面的限制，主要问题仍然在于CUDA在LPU式执行模式下的行为，因为它需要显式的内存分配，而CUDA内核的设计初衷是面向硬件抽象。对于NVIDIA来说，将SRAM集成到AI架构中并非易事，因为这需要精湛的工程技术才能确保LPU-GPU环境得到充分优化。然而，如果NVIDIA想要在推理领域保持领先地位，这或许是它愿意付出的代价。

Groq 的 LPU 架构是关键

过去几个月，人工智能行业的计算需求发生了翻天覆地的变化。像OpenAI、Meta、Google等公司在致力于训练前沿模型的同时，也在寻求构建强大的推理堆栈，因为这才是大多数超大规模数据中心的主要盈利点。

谷歌发布 Ironwood TPU 时，业界将其吹捧为专注于推理的利器，而这款 ASIC 芯片也被誉为英伟达的替代品，这主要是因为当时有说法称 Jensen 尚未推出一款在推理吞吐量方面占据主导地位的解决方案。我们有 Rubin CPX，但我稍后会讨论它。谈到推理，计算需求会发生显著变化，因为在训练过程中，业界更看重吞吐量而非延迟和高运算强度，这也是为什么现代加速器都配备了 HBM 和海量张量核心的原因。

由于超大规模数据中心正转向推理，它们现在需要快速、可预测且前馈式的执行引擎，因为响应延迟是主要瓶颈。为了实现快速计算，NVIDIA 等公司针对大规模上下文推理（预填充和通用推理）等工作负载推出了 Rubin CPX，而 Google 则宣称其 TPU 方案具有更高的能效。然而，在解码方面，可供选择的方案并不多。

解码是指Transformer模型推理过程中的词元生成阶段，它作为人工智能工作负载分类的关键环节，其重要性日益凸显。解码需要确定性和低延迟，而考虑到推理环境中使用HBM带来的限制（延迟和功耗），Groq的独特之处在于它使用了SRAM（静态随机存取存储器）。既然我已经阐明了为什么需要重新审视推理计算，现在是时候讨论LPU了。

LPU是 Groq 前 CEO Jonathan Ross 的杰作，顺便一提，他最近已加入 NVIDIA。Ross 因其在 Google TPU 方面的工作而闻名，因此我们可以肯定，NVIDIA 正在内部获得一项重要的资产。LPU 是 Groq 针对推理类工作负载的解决方案，该公司区别于其他公司的关键在于其两大核心优势。首先是确定性执行和片上 SRAM 作为主要权重存储。这是 Groq 通过确保可预测性来提升速度的方法。

Groq此前已展示了两款领先的解决方案：GroqChip和基于合作伙伴的GroqCard。根据官方文件披露的信息，这些芯片配备230MB片上SRAM，片上内存带宽高达80TB/s。SRAM的使用是LPU的关键优势之一，因为它能显著降低延迟。与HBM相比，考虑到DRAM访问和内存控制器队列带来的延迟，SRAM的优势显而易见。片上SRAM使Groq能够实现数十TB/s的内部带宽，从而提供领先的吞吐量。

SRAM 还使 Groq 能够提供一个节能平台，因为访问 SRAM 所需的每比特能量显著降低，并消除了 PHY 开销。此外，在解码过程中，LPU 显著降低了每个令牌的能耗，考虑到解码工作负载是内存密集型的，这一点至关重要。这是 LPU 的架构方面，虽然这看似重要，但这只是 LPU 性能的一部分。另一个关键因素是利用确定性周期，即通过编译时调度来消除内核间的时间差异。

编译时调度确保解码流水线中不存在“延迟”，这是一个至关重要的因素，因为它能够实现流水线的完美利用，从而相对于现代加速器实现更高的吞吐量。总而言之，LPU 完全专用于满足超大规模数据中心所需的推理功能，但业界目前忽略了一个关键问题。LPU 是真实有效的推理硬件，但它们高度专业化，尚未成为主流的默认平台，而这正是 NVIDIA 的用武之地。

除了上述AGF的方法，将LPU集成到NVIDIA产品中的另一种方法是将其作为机架级推理系统（类似于Rubin CPX）的一部分，并搭配网络基础设施。这样一来，GPU可以处理预填充/长上下文信息，而LPU则专注于解码，这意味着在推理任务方面，NVIDIA已经解决了所有问题。这有望将LPU从实验性选项转变为标准推理方法，从而确保其在超大规模数据中心得到广泛应用。

毫无疑问，这笔交易标志着英伟达在推进其产品组合方面取得的最大成就之一，因为所有迹象都表明，推理将是英伟达接下来要讨论的选项，而 LPU 将成为该公司在人工智能工作负载领域战略的核心部分。

为了规避反垄断风险，选择授权

在日勤，CNBC率先报道了这一消息，声称英伟达将以200亿美元的巨额交易“收购”Groq公司，这将是詹森·黄仁勋迄今为止最大的一笔收购。此消息在业内引发轩然大波，有人认为监管调查会阻碍这笔交易，也有人断言Groq的末日已至。然而，随后Groq在其官网上发布官方声明，称已与英伟达达成“非独家许可协议”，授予这家人工智能巨头使用其推理技术的权利。

“我们计划将 Groq 的低延迟处理器集成到 NVIDIA AI Factory 架构中，从而扩展该平台，使其能够服务于更广泛的 AI 推理和实时工作负载。虽然我们正在吸纳优秀人才并购买 Groq 的知识产权许可，但我们不会收购 Groq 这家公司。”英伟达首席执行官黄仁勋在一封内部邮件中表示

因此，在Groq发表声明后，至少从表面上看，合并的说法不攻自破。现在看来，这一系列事件颇为耐人寻味，尤其是考虑到这笔交易距离被视为全面收购只差一步之遥，那就是官方披露中未提及此事。

这是英伟达典型的“反向收购”策略。如果有人不知道这意味着什么，这是微软的惯用伎俩。早在2024年，这家科技巨头就宣布以6.53亿美元收购Inflection，其中包括Mustafa Suleyman和Karén Simonya等人加入微软，后者曾是微软人工智能战略的先锋。

反向收购是指一家公司从一家初创公司挖走关键人才，并保留“最基本的”公司架构，从而避免被认定为合并。现在看来，詹森似乎也采用了类似的策略来规避美国联邦贸易委员会（FTC）的调查。他将与Groq的交易包装成“非独家许可协议”，从而使英伟达实际上游离于《哈特-斯科特-罗迪诺反垄断改进法案》（HSR法案）的管辖范围之外。值得注意的是，Groq提到GroqCloud将继续运营，但仅以“精简架构”的形式存在。

事情的经过是这样的：英伟达斥资200亿美元收购了Groq的人才和知识产权，并成功避开了监管调查，从而在短短几天内就完成了交易。而谈到他们现在拥有的硬件资源，这才是英伟达收购Groq这笔交易中最引人注目的部分。

0 举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2025-12-31 06:22 , Processed in 0.166266 second(s), 15 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册