真正让他觉得意义重大的是,一直身处的“信息技术(IT)”行业,即将跨越传统 IT 预算边界,“我们过去 60 年一直在 IT 预算里运作,但随着 AI 的到来,我们要进入制造业预算,甚至进入运营支出预算”,这意味着从 1 万亿美元级别的 IT 市场,迈向 50 万亿美元的全球资本支出(CapEx)和运营支出(OpEx) 市场。
黄仁勋认为,现在的 AI 工厂需要处理覆盖帕累托分布的 token 需求曲线:创建一个系统能同时满足不同需求,在基础的服务中能够生成免费 token,在复杂任务和高要求的任务中生成高质量 token。
这就提出了一个架构难题:不能只针对某一种 token 做最优设计。他强调,如果架构过于碎片化,那么在不同部分之间来回移动工作负载就会变得困难;当设计一个在高速 token 率方面表现出色的系统时,通常它的整体吞吐量就会很低——“你可以挨着 X 轴(低延迟)做一个点,也可以贴着 Y 轴(高吞吐)做一个点,但很难覆盖整个帕累托曲线。”