通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  大元帅

注册:2007-12-102029
跳转到指定楼层
1#
发表于 2025-8-18 15:16:30 |只看该作者 |倒序浏览
HBM(高带宽存储芯片)核心技术,对于AI高端芯片,算力供应链及生态,越来越具有战略意义。
AI算力竞赛愈演愈烈,谁能率先突破下一代HBM技术,谁就能在未来的AI芯片竞争中占据制高点。它对于突破AI大模型新前沿,并且低成本大规模部署应用,都会起到关键作用。
中国在HBM(高带宽存储芯片)上的国产替代正在提速。SK海力士、三星和美光长期垄断这一市场,但如今美国与韩国都确信,中国与其的技术代差,已从8年缩短至4年。
中国已于今年提前量产HBM2,HBM2E似乎已被直接跳过;HBM3样品已在6月交付客户,年底完成量产验证;若按计划推进,2027年将轮到HBM3E,几乎一年一代。
与此同时,三大巨头正在迈向HBM4,将引领一次技术飞跃。英伟达也已经开始自行设计HBM的裸芯片部分,预计2027年开始量产,将推动下一代HBM在定制化、架构融合化创新,并对整个生态产生深远的影响,进一步巩固其在高端AI芯片领域的优势地位。
从8年缩至4年
与AI芯片一样,HBM也是大模型性能的“卡脖子”组件,容量与带宽影响着训练与推理的效率。从H100到GB200,HBM容量增长了2.4倍,带宽增长了2.6倍,但模型参数和上下文长度的增长速度更快,使得存储压力有增无减。
缺乏自己的HBM,正如缺乏自己的先进AI芯片一样,困扰着中国AI参与全球竞争。去年年底,美国总统拜登在下台前,更是一方面限制中国AI算力企业获取先进HBM,一方面限制中国代工企业获取HBM相关半导体设备。
当时,中国市场上的主流国产AI芯片多搭载内存三巨头提供的HBM2E,而禁了又解禁的英伟达H20,已经用上了HBM3。根据禁令对“内存带宽密度”(memory bandwidth density)的限定,国内AI芯片就连HBM2E都用不了了。
反观全球,欧美主流AI芯片已全面进入HBM3E时代。无论是英伟达的Blackwell架构芯片,还是谷歌TPU v6e,用的都是HBM3E。SK海力士的HBM4已经发货,下半年量产,即将用于英伟达下一代的Rubin架构AI芯片。
好消息是,HBM国产替代的速度,要快于此前的预期。技术一经市场验证,加之地缘竞争的驱动,国内的长鑫存储与武汉新芯都在奋起直追。此前,这些企业光顾着发力DRAM技术另一条产品线,即面向消费电子市场的DDR产品了。
去年,公开报道还称国产HBM2或在2026年形成量产能力。据此,不考虑每一代的变体,相当于中国至少与全球领先水平存在8年的代差。而且,当时,Techinsights称,届时即使能够量产,良率(yield ratio)也会在30%甚至更低。
形势逼人强,到了今年年初,通富微宣布已经开始为客户试产HBM2。长鑫存储(CXMT)开始研发HBM3,并计划在明年启动量产。这些消息得到业内的广泛确认。
半导体分析机构Semianalysis称,中国DRAM国家队的长鑫存储,正积极扩大HBM产能,其中HBM2已于今年上半年量产。到年底,与HBM先进封装密切相关的TSV(硅通孔)产能将与美光接近。这是实现HBM多层堆叠与高速互连的核心工艺。
同日,韩国媒体报道称,长鑫存储预计在年底完成HBM3量产认证,并计划在2027年量产HBM3E。若按此节奏,中国厂商与内存三巨头的时间差将从8年缩短至约4年,甚至3年。
中国厂商的加速度,超出了韩国的预期。韩国原以为长鑫存储要到年底才交付样品,但该公司在今年6月就完成了这一节点。TechInsights的数据也显示,去年一季度,内存三巨头的每晶圆位密度(bit density per wafer)仍是长鑫的1.87倍,今年一季度已缩至1.63倍,预计明年一季度将进一步降至1.18倍。
在技术上,中国HBM国产替代的跨越式发展,并非完全不可能。分析机构Futurum分析指出,长鑫存储已能量产D1y与D1z(约17~13纳米)节点的DRAM,既能用于消费电子的DDR5,也能用于AI服务器的HBM。年初,长鑫存储宣布DDR5量产成功,相对内存三巨头的DDR5,制造工艺恰好也落后了约四年。Counterpoint预测,虽然长鑫存储在DDR5市场的份额目前只有1%,但到年底将上升到7%。这一放量速度,意味着D1z的良率问题可能不再是未来量产HBM3的负担。
但是,国内市场至少要等到2026年。时间差仍然致命。这也解释了为什么近日有媒体称,中美贸易谈判已将HBM列为焦点之一,短期内满足下游需求,长期又不挤压上游空间。
内存三巨头正在进入HBM4时代,新的技术路径涌现,导致从HBM3到HBM4的路径,无法简单复制HBM2到HBM3的成功。对中国AI算力生态而言,唯有尽快翻越这道“内存墙”,并依托上游设备突破与下游芯片适配,才能将国产HBM真正嵌入自主的AI算力闭环。
最现实的障碍,仍然是国产半导体设备无法自给自足。即使是领先的HBM企业长鑫存储,半导体设备的国有化率也仅约20%左右。更关键的是,随着HBM3的真正突破,EUV(极紫外)光刻将再次成为关键的“卡脖子”环节。
长鑫存储正在寻求对D1α和D1β(14-13纳米)的突破,也就是HBM3E的关键工艺节点,将不得不压榨传统光刻的潜力。三巨头在这一阶段已经普遍采用了EUV光刻技术。在逻辑芯片领域经历过的一切,似乎又要在HBM领域再来一次。而且,能造出来,不意味着好用。三星的HBM3E就长期被英伟达“拒收”。
国产HBM的持续成长,依赖下游AI芯片厂商,即国内加速芯片厂商的广泛采用。受技术与监管限制,海外客户基本不会采用它。在全球HBM客户中,英伟达占65%、谷歌占18%,中国芯片厂商仅占1%。只有中国AI芯片厂商需求足够旺盛,才能形成从HBM到AI芯片再到AI算力的闭环。而当前要让中国AI芯片足够好用,至少在2026年前,它们需要尽可能地接入国产HBM的竞争对手的产品体系中。
HBM4飞跃
就在中国企业奋力攻克HBM3时,三巨头正在争夺下一张王牌——HBM4。它将是2026年推出的下一代数据中心和AI芯片的首选标准。
未来,HBM将不再是标准化产品。为了降低整体的功耗和性能损失,上游AI芯片厂商纷纷开启了定制化趋势。它主要是用针对特定AI加速器架构定制的基底裸片(custom base die),取代了传统的通用裸片,优化信号路径、电源分配和接口协议,从而实现更高的能效和带宽密度。Semianalysis认为,这是一次革新架构层面的重大飞跃,彻底改变了HBM与AI加速器的集成方式。
今年6月,SK海力士已与英伟达、微软、博通达成HBM4E定制合作,三星也在与博通、AMD谈判。这对国产厂商意味着更高的技术门槛与商业壁垒。亚马逊AWS高管甚至称,定制化可能“关闭其他玩家的大门”。HBM国产替代仍要加速奔跑,这也是一场国产AI算力生态闭环的团体赛。
绕过HBM?
在HBM进展相对于AI模型规模和上下文长度增长较缓慢的情况下,卸载缓存压力的技术也成为选择。
在大模型推理中,HBM的作用,除了用来封存权重之外,还用来存储KV缓存。生成式AI就是预测下一个token,GPU首先从HBM读取权重,同时检索整个KV缓存,将新token与对话历史进行比较。产生新的token后,GPU将产生新token的新键(K) 和值(V)追加回HBM,扩大缓存。
所以,如果减轻HBM的压力,可以将KV缓存卸载到更便宜、更易获取的存储层级,如传统DDR甚至存储设备。
KV缓存卸载已经被广泛使用。这类似于通用CPU中的多级存储:速度极快但密度低的L1/L2/L3缓存,以及速度较慢但密度高的DRAM。在AI系统中,KV的存储位置基于使用频率管理。英伟达有一个名为Dynamo Distributed KVCache Manager的框架,将所有当前使用的KV保存在HBM中,不常使用的KV保存在DDR中,极少使用的KV保存入NVMe (基于PCIe总线的高性能存储协议,为固态硬盘SSD设计 )。
华为也于近日发布了AI推理加速技术UCM(统一计算内存),在降低时延与成本的同时显著提升效率。它的技术原理,也是以键值缓存为核心,通过多级缓存算法,智能管理AI运算产生的记忆数据;按数据热度将KV Cache分层存储于HBM/DRAM/SSD;融合稀疏注意力算法,优化算存协同效率。
在本地算力基础设施上,UCM可以实现推理速度提升3倍,响应延迟降低50%。这一技术将于9月开源。
HBM5时代,英伟达杀入
存储墙的长期存在,成本持续上涨,威胁着英伟达未来的市场地位。HBM容量从A100的80GB HBM2E飙升至Rubin Ultra的1024GB HBM4E。每芯片的存储带宽也大幅提升。从Ampere到Blackwell Ultra,HBM不仅在材料清单(BOM)中成本超过一半,而且绝对和相对增长的最大部分都来自HBM。
在计算与存储架构融合的趋势下,HBM是决定未来AI芯片制高点的决定因素,英伟达从去年即开始布局掌握核心技术。
最近传出英伟达将自己设计HBM基础裸片。这是一项至关重要的核心技术,英伟达已经决定,今后无论用谁家的HBM,基础裸片必须自家设计。据业内盛传,3纳米制程的基础裸片,预计将于2027年下半年小规模量产。
实际上,英伟达已经于2024年8月就向美国专利局提交了一份专利申请,并于12月获批。这项专利是一种 3D 堆叠式“存储近计算”架构,通过让处理器裸芯片与存储裸层层堆叠并一一对应,提升了数据局部性和运算效率,特别适用于 AI 大模型训练和高性能计算场景。
据韩国独立专利研究机构SETI Park分析,英伟达的专利将带来如下创新:
垂直集成架构:将存储裸片直接堆叠在处理器裸片之上,并通过垂直导电通路实现互连,实现处理单元与存储单元之间的直接、高带宽通信。
分区化组织 (Tiled Organization):将处理器裸片和存储裸片划分为一一对应的对齐分区(tile),形成局部的处理-存储对,提升数据访问效率。
分布式 I/O 设计:在每个存储分区的中心位置布置 I/O 电路,缩短布线路径,降低能耗。
分层网络架构:在瓦片与裸片之间实现多层次通信路径,既保证了局部访问的高效性,又支持跨区域的数据共享。
这样下来,单位算力的带宽(byte/flop比率)增加了50倍,每比特功耗降低10倍,而且制造流程简化了。
英伟达的自己设计的裸芯片将有可能用于HBM5。据韩国科学技术院(KAIST)和太字节互连封装实验室(Tera)最近展望,重在3D近存技术突破的HBM5 ,将于 2029 年上市,瞄准英伟达的费曼(Feynman)产品。


举报本楼

本帖有 3 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-8-19 02:13 , Processed in 0.296806 second(s), 16 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部