通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  大元帅

注册:2007-12-102530
跳转到指定楼层
1#
发表于 2026-3-24 10:38:23 |只看该作者 |倒序浏览
近日,英伟达、谷歌和美国多家大学研究人员写了一篇名为《10-Year Roadmap for AI + Hardware》的文章。在文章中,他们披露了包括芯片在内的AI硬件预期。
以下为文章正文:

人工智能 (AI) 和硬件 (HW) 正以前所未有的速度发展,但它们的轨迹已密不可分。大型 AI 模型和数据密集型应用的指数级增长对更强大、更高效的硬件加速提出了更高的要求,而从 GPU、FPGA 和 TPU 到新兴的 NPU、模拟 AI 芯片、光子系统和神经形态处理器等专用计算平台的突破,正在重新定义智能系统的极限。

这种良性循环正在改变计算格局,但也暴露出一个关键的差距:尽管两者协同演进迅速,但全球研究界缺乏一个统一的、长远的战略愿景来协调 AI 和硬件的发展。今天的算法是围绕昨天的系统设计的,而明天的芯片是针对今天的工作负载优化的。这种碎片化限制了构建能够在云端、边缘和物理环境中高效学习、推理和运行的整体性、可持续和自适应 AI 系统的进程。

与此同时,人工智能的能源消耗已达到环境和经济上不可持续的水平。训练一个前沿模型所需的能源相当于数百个家庭的用电量,而人工智能数据中心的电力需求也日益堪比国家。人工智能的未来不仅取决于智能规模的扩展,还取决于效率的扩展,即实现每焦耳智能的指数级增长——每焦耳智能指的是单位能量所能提供的有效能力、洞察力或任务性能,而非无限制的计算消耗。应对这一重大挑战需要重新思考整个计算堆栈。

本愿景文件提出了一个涵盖算法、架构、系统和可持续性的人工智能与硬件协同设计与开发的十年路线图。我们阐述了围绕能效、系统级集成和跨层优化重新定义规模扩展的关键见解。我们指出了关键挑战和机遇,包括训练与推理的鸿沟、基础设施限制、异构集成以及公平获取先进硬件。

我们探讨了重要的未来发展趋势,从以内存为中心和3D集成架构到自改进系统、去中心化人工智能代理以及新兴计算范式。我们坦诚地评估了潜在的障碍和陷阱,包括研究孤立、资源不均以及过度依赖硬件优势,并提出了基于算法创新、硬件进步和软件抽象的集成解决方案。

展望未来,我们对未来十年的成功做出如下定义:人工智能训练和推理效率提升1000倍;构建节能、自优化的系统,实现云端、边缘和物理人工智能的无缝衔接;普及先进的人工智能基础设施;并将以人为本的原则融入智能系统的设计。

最后,我们为学术界、产业界、政府和更广泛的社会群体制定了具体的行动方案,呼吁开展协调一致的国家级举措,共享基础设施,培养人才,加强跨部门合作,并建立持续的公私合作伙伴关系,以确保人工智能与硬件协同设计成为一项统一的长期使命。



文章内容总结



(1)重塑计算和人工智能基础,实现1000倍效率提升

要实现人工智能训练和推理效率提升1000倍,需要人工智能模型和硬件架构之间的深度协同创新。大型模型的快速增长使得数据传输成为主要瓶颈,其速度超过了计算、内存和互连技术的进步。应对这一挑战需要转向内存沉浸式计算,通过计算和内存的密集三维集成来实现超高带宽和低能耗。同时,开发低复杂度但高质量的人工智能模型,包括混合模型、香农启发式模型、神经启发式模型、近似模型和概率模型,对于在不牺牲精度的前提下降低计算和内存需求至关重要。硬件感知模型还必须通过冗余减少、低秩低精度训练和高效的测试时扩展等技术来进一步适应系统约束。结合跨层优化和透明的、与硬件无关的基准测试框架,模型、编译器、运行时、库、架构和设备的紧密协同演进可以带来未来的人工智能系统,最大限度地提高每焦耳的智能,并开启可持续人工智能计算的新时代。

(2)革新设计生产力和适应性

人工智能创新的速度如今已远远超过硬件和系统设计的速度。弥合这一差距需要将人工智能融入到开发的每个阶段,构建人工智能在环设计工作流程。开放数据集和标准化基准对于电子设计自动化 (EDA) 的透明度、可复现性和进步至关重要。通过利用专门的大型和小型语言模型,实现细粒度的任务-智能体对齐,可以自动化并加速设计子任务,同时提升智能效率。结合上下文工程技术,这些进步将催生出人工智能原生设计方法,将技术、架构和算法统一到一个连贯、自适应的协同设计生态系统中。

(3)构建可靠且值得信赖的人工智能系统

随着人工智能的普及,可靠性和可信度必须通过权衡准确性、鲁棒性和效率(包括复杂性、能耗和延迟)来理解。鲁棒性必须涵盖模型和硬件,这就需要设计方法明确地管理这些权衡,并为系统行为提供保证。人工智能硬件范式应根据其在多维权衡曲面上的位置进行评估,优秀的方案应在关键指标上接近帕累托最优。实现这一点需要形式化验证、基于物理的约束和运行时监控。虽然通用生成式人工智能已经改变了许多领域,但要弥合其与硬件设计之间的差距,需要专门的语言模型和上下文工程人工智能系统来理解电路、架构和设计自动化的语义。基准测试也必须超越 MLPerf,将鲁棒性、可解释性和可持续性纳入考量。

(4)用于科学发现、机器人和自主代理的物理人工智能

人工智能创新的下一个飞跃在于将数据驱动学习与物理定律相结合。物理信息人工智能,包括基于神经算子和可微模拟器的各种方法,为建模科学和工程领域的核心多尺度现象(从材料发现到芯片设计)提供了一种原则性的方法。与此同时,物理和具身人工智能系统(例如在现实世界中运行的机器人和自主代理)对能效、实时响应和鲁棒性提出了严格的要求,因此学习、控制和硬件之间的紧密集成至关重要。尽管这些领域前景广阔,但由于缺乏统一的基准、数据集和可扩展的求解器,相关进展受到阻碍。新兴的潜在世界模型,例如联合嵌入预测架构(JEPA),旨在学习物理世界的结构化潜在表示。这些方法可能为未来人工智能系统中符号推理、物理信息先验和更高效的决策机制的集成奠定基础。

(5)解决核心瓶颈并统一人工智能与硬件演进

未来人工智能的一大前沿领域在于开发紧凑、节能的模型,使其在性能上能够与前沿模型相媲美,同时还能在边缘和嵌入式平台(包括支持物理人工智能的平台)上高效运行。要实现这一目标,需要不断创新,超越当前主流的实现方式,将注意力机制与互补架构、算法稀疏性、状态空间模型和系统级优化相结合,以提高效率、可扩展性和泛化能力。在硬件方面,下一代人工智能计算平台将基于异构的、以内存为中心的架构构建,通过可扩展的低延迟互连技术集成人工智能加速器、可编程架构和量子处理器。跨领域的重点包括人工智能与硬件的协同设计、全栈能耗优化、人工智能驱动的芯片和系统自动化以及大规模集群效率。此外,随着智能体人工智能系统能力的不断提升,人机交互(HAI)必须始终是关注的焦点,确保人类和智能体能够无缝协作、透明地沟通意图,并可靠、安全地执行复杂任务。

(6)人工智能与硬件的实践:迈向协调一致的全球影响

尽管“人工智能与硬件实践”看似侧重于产业界,但学术界在构建可持续且具有全球竞争力的AI生态系统中扮演着至关重要的补充角色。产业界在大型语言模型(LLM)和数据中心级基础设施的主流范式下快速发展;然而,这种侧重可能会限制对学术界擅长的全新方向的探索。一个具有韧性的AI生态系统依赖于严谨的学术研究和批判性评估,以确保提出的技术进步能够有效地转化为实际应用。在整个技术栈上协调一致的AI+硬件工作对于应对系统性挑战至关重要,这些挑战包括在监管和数据主权限制下将试点系统扩展到持续部署,管理前沿模型不断攀升的成本和能源需求,以及弥合开放式学术研究与目标明确的产业目标之间的差距。通过协调一致的政策、共享资源和持续合作,AI和硬件创新可以以可持续、公平且具有全球影响力的方式向前发展。

(7)构建可持续的产学研政伙伴关系

要实现这一宏伟愿景的目标,需要学术界、产业界和政府之间的深度合作。扩大诸如国家人工智能研究资源(NAIRR)等政府举措,将有助于实现计算、数据和模型的民主化获取。目前仍存在一个持续的挑战,即如何将学术界的长期探索性研究与产业界的短期产品驱动型开发相衔接。弥合这一鸿沟需要共享基础设施、开源协作以及能够将学术创造力与产业规模和重点相结合的政策框架,从而确保创新既具有基础性又具有影响力。



背景与动机



人工智能已进入一个前所未有的强大时代,但也面临着严重的失衡。在更大的数据集、更深的网络和海量计算资源的推动下,人工智能模型呈指数级增长,在科学、工程和日常生活中取得了非凡的突破。然而,这种发展轨迹正变得越来越难以为继。每一代前沿模型都需要数量级更高的能源和内存带宽,单次训练运行就会消耗数百万千瓦时,并产生大量的碳排放。如今,支撑人工智能崛起的系统本身也受到现有硬件范式在物理、架构和经济方面的限制。

当今的计算基础设施仍然以计算为中心,计算和数据存储彼此分离。由此产生的“内存墙”造成了严重的性能瓶颈,因为传输数据所消耗的能量现在超过了计算数据所消耗的能量。尽管GPU、TPU 、NPU和神经形态处理器推动了人工智能的发展,但它们的架构仍然针对特定工作负载进行优化,而非适应不断演进的计算。缺乏统一的 AI+硬件协同设计理念,创新就会变得支离破碎:人工智能算法假定后端是静态的,而硬件则是为很快就会过时的模型而设计的。这种不匹配阻碍了进步,导致效率低下,并且这种低下会在整个系统堆栈中不断累积。

与此同时,软件框架和算法的进步速度远超硬件开发周期,甚至落后数年。这种不匹配使得研究人员难以将快速发展的AI范式适配到固定的硬件平台上,而芯片设计人员则必须预测尚未出现的工作负载。尽管研究界已经开始探索AI+HW协同设计。尽管如此,此类努力在人工智能和硬件领域仍远未成为主流。缺乏系统性的协同设计导致了各自为政的局面,数据传输、能耗优化和可编程性被视为彼此独立的问题,而不是一个连贯系统的组成部分。

未来发展需要重新思考“扩展”本身。该领域不应再追求蛮力计算,而应采用节能、自优化和架构自适应的系统。诸如以内存为中心的架构、密集的 3D 集成和内存计算技术等新兴方向有望降低数据传输的能耗和延迟 。类似地,AI 在环硬件设计、生成式 EDA 工具和跨层优化框架将使系统能够学习、适应并与它们所支持的算法共同进化。

在这种新范式下,衡量成功的标准不再是浮点运算次数或模型规模,而是每焦耳的智能、可信度和跨尺度的适应性。实现这一愿景需要一个协调一致的多层次路线图,将应用需求、算法创新和相关硬件技术整合到一个不断发展的生态系统中。只有通过这种彻底的整合,我们才能在确保人工智能高效、易用和造福全球的同时,维持其持续增长。

过去几年,一个充满活力的研究生态系统应运而生,为人工智能与硬件快速发展的交叉领域提供支持。诸如MLCAD、MLSys和ICLAD等专注于人工智能+硬件研究的新兴会议和社群获得了显著发展,汇聚了来自机器学习、计算机体系结构、EDA和系统等领域的研究人员。此外,包括DAC、MICRO、ISCA、ASPLOS和ISSCC等旗舰会议在内的许多知名会议也越来越多地设立了专门的专题研讨会、讲座和教程,探讨人工智能驱动的硬件设计和硬件感知型人工智能算法。这些发展反映了跨学科社群的快速扩张,并凸显了人们日益认识到,未来的突破需要人工智能算法、硬件架构和系统软件之间的紧密集成。加强和协调这一研究生态系统对于加速创新和实现人工智能+硬件协同演进的长期愿景至关重要。



举报本楼

本帖有 2 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2026-3-24 19:55 , Processed in 0.180886 second(s), 16 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部