4月15日,英伟达CEO黄仁勋接受播客主持人Dwarkesh Patel的深度访谈,就英伟达如何掌控日益紧张的先进芯片供应链?TPU能否打破英伟达在AI计算领域的垄断地位?为什么英伟达不成为超大规模数据中心运营商?美国是否应该向中国出售 AI 芯片?为什么英伟达不生产多种不同的芯片架构?等热点话题,做了详细的解答。
如果你看看今天的英伟达,我们可能拥有规模最大的合作伙伴生态系统,涵盖供应链的上下游,包括所有计算机公司、应用开发商和模型构建者。人工智能就像一个五层蛋糕,我们的生态系统遍布所有五个层面。我们尽量少做,但事实证明,我们必须做的那部分工作极其困难。我认为这部分工作无法商品化。(We try to do as little as possible, but the part that we have to do, as it turns out, is insanely hard)
但这些超大规模数据中心运营商拥有编写自有内核的资源。事实上,为了获得其特定架构所需的最后 5% 的性能提升,他们必须这样做。Anthropic 和 Google 大多运行着自己的加速器,或者使用 TPU 和Trainium 。即使是使用 GPU 的 OpenAI,也使用Triton ,因为他们需要自己的内核。甚至在 CUDA C++ 方面,他们也没有使用cuBLAS和NCCL ,而是拥有自己的技术栈,该技术栈还可以编译到其他加速器上。如果你的大多数客户能够并且确实找到了 CUDA 的替代方案,那么 CUDA 在多大程度上真的能够推动 Nvidia 平台上的前沿 AI 应用?
黄仁勋:CUDA 拥有丰富的生态系统。如果您想先在任何计算机上进行构建,那么首先基于 CUDA 进行构建是非常明智的选择。正因为其生态系统如此丰富,我们才能支持所有框架。如果您想创建自定义内核……例如,我们为 Triton 做出了巨大贡献。因此,Triton 的后端使用了大量的 Nvidia 技术。
我们很高兴能够帮助每个框架发挥其最大潜力。框架种类繁多,例如Triton、vLLM 、SGLang等等。现在又涌现出许多新的强化学习框架,例如verl和NeMo RL 。随着训练后处理和强化学习的不断发展,整个领域正经历着爆炸式增长。因此,如果您想基于某个架构进行开发,那么基于 CUDA 无疑是最佳选择,因为 CUDA 的生态系统非常完善。
最后,我们能够覆盖所有云平台,这使我们真正独树一帜。如果您是一家人工智能公司或开发者,您可能并不确定应该与哪家云服务提供商合作,或者在哪里运行。我们几乎可以在任何地方运行,如果您愿意,我们也可以为您提供本地部署服务。丰富的生态系统、庞大的用户群以及我们灵活的部署方式,共同造就了 CUDA 的无可比拟的价值。
所以我们应该这样做。我们应该倾尽全力,全心全意地投入到这项工作中。然而,世事难料。如果我不做,也会有人去做。因此,我们公司至今仍然秉持着“尽可能多做,但尽可能少做”(doing as much as needed but as little as possible)的理念。我所做的每一件事,都遵循着这个原则。
就云计算而言,如果我们当初不支持CoreWeave ,这些 neoclouds、这些 AI 云就不会存在。如果我们当初没有帮助 CoreWeave 发展,它们也不会存在。如果我们当初没有支持Nscale ,它们就不会有今天的成就。如果我们当初没有支持Nebius ,它们也不会有今天的成就。如今,它们发展得非常出色。
除此之外,优先级是先进先出。你必须下订单。如果你不下订单……当然,这方面有很多传闻。比如,这一切都源于一篇关于拉里和埃隆和我共进晚餐的文章,文章里他们恳求我提供GPU 。这事根本没发生过(That never happened)。我们确实一起吃了顿饭。我们确实一起吃了顿饭,而且那是一顿非常棒的晚餐。他们从来没有恳求我提供GPU。他们只需要下订单。一旦他们下订单,我们会尽力满足他们的产能需求。我们的流程很简单。
选择英伟达,有一点可以肯定:今年,Vera Rubin将会非常出色。明年,Vera Rubin Ultra将问世。后年,Feynman将横空出世。再后年,我还没公布名字呢。每年,你都可以信赖我们。你得去全世界找找其他 ASIC 团队——随便挑一个——才能找到一个可以让你说:“我可以把我的全部家产都押上,我可以把我的整个公司都押上,你们每年都会为我服务。你们的token成本每年都会下降一个数量级,我可以像信赖时钟一样信赖你们。”(“I can bet the farm, I can bet my entire business that you will be here for me every single year. Your token cost will decrease by an order of magnitude every single year. I can count on it like I can count on the clock.”)
Q:我之前和人讨论时,有人问过我一个问题:为什么英伟达不同时开展多个架构完全不同的芯片项目?比如,可以开发类似Cerebras的晶圆级芯片,也可以开发类似Dojo 的大型封装芯片,还可以开发不使用 CUDA 的芯片。英伟达拥有足够的资源和工程人才来并行开发所有这些芯片。考虑到人工智能和架构的未来发展方向难以预测,为什么要把所有鸡蛋都放在一个篮子里呢?
例如,我们最近新增了Groq ,并且计划将其整合到我们的 CUDA 生态系统中。我们现在这样做是因为token价值飙升,可以采用不同的定价策略。就在几年前token要么是免费的,要么价格非常低廉。但现在,我们的客户群体各不相同,他们需要不同的解决方案。因为客户收入很高——例如我们的软件工程师——如果我能为他们提供响应速度更快的代币,从而让他们比现在更高效,我愿意为此付费。