通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  大元帅

注册:2007-12-101198
发表于 2024-1-29 11:32:35 |显示全部楼层
我们都熟知互联网巨头以前使用的算力卡,其中大部分是英伟达的A100与H100。然而,中国市场现在引进了L20、H20和L2这三款芯片。这无疑引起了人们的好奇,大家想知道这三款算力卡是否是为了规避美国的出口管制而特别提供给我们的所谓“阉割版”(太监版)算力卡。
大家可以看下这三款产品的参数。


L20、L2 主要是推理卡,H20 是 Hopper 架构, L20、L2 则基于 Ada 架构。H20配有高达96GB的HBM3显存,4TB/s的带宽,60MB二级缓存。


从参数上看,L20 基本L2的两倍,所以L2 是计算卡,L20 则是加速卡。


H20定价基本确定,出厂价1.2-1.3万美金,头部大客户拿到的价格估计是1.3-1.5万美金,基本跟910B涨价后差不多,配合上IB网络后,集群性能能够达到接近H100的30%-50%。


L40之前是卖59000,现在的L20价格是35000。


L2的价格现在还不清楚,如果有知道的同学们可以帮忙告知,这里我会补充。

H20会在Q2大规模出货,此次定价位于此前市场预期50%-70%折扣的下限,对国内有没有吸引力我这里给大家分析下。


大家都应该明白这L2、L20就是推理卡呀。大家要是不信可以直接拿去跟A10的参数对比下。话说我们国内缺推理卡吗?确定能打得过国产推理卡吗?我真的表示怀疑。
再看H20。从显存、显存带宽、浮点算力、MIG、编解码能力、是否支持 NVLink 互联等综合来看, H20是训推一推卡。但是H20,性能算力水平约等于50% A100和15% H100,单卡算力是0.148P(FP16)/ 0.296P(Int8),900GB/S NVLink,6颗HBM3e(显存的物料与H100 SXM版本配置相同,即6*16GB=96GB容量),die size同样都是814mm2H20 的优点也很明显,在大语言模型(LLM)推理方面比H100快了20%。比如,原先用H100跑一个任务需要20天,如今H20再跑可能要100天。


很多人都在谈论性价比!哼!既然我们已经有了自行车,为什么还需要摩托车呢?这不就是同样的逻辑吗?为什么说这次的“阉割版”无法与我们国产卡竞争。因为我们有比L20、L2更出色的推理卡,比如寒武纪的370,昆仑芯、云燧20等。下面是我之前写的一篇关于寒武纪MLU370推理卡的详细解析。有兴趣的人可以去看一下。


这次的H20、L20、L2的性价比总体来说并不高,主要原因是国内的推理卡比英伟达还要好,并且软件平台也比CUDA更优。因此,这次推出的“阉割版”产品完全是对我们的侮辱,我们为何要去乞讨呢?

面对老美封锁,NVD芯片进入国内受到限制,其次国产AI芯片企业面临海外流片限制风险。所以对于大厂来说,芯片国产替代得重要性,2024年有大量的FAE的华为昇腾910B(原生适配Pytorch2.x backend)、寒武纪(新卡面世)、燧原、海光”等等公司均已发布适用于AI大模型训推的硬件加速产品;加之国内晶圆代工厂的7nm产能扩充(今年新购ASML 2050/2100 DUV以及据传2024年前预定的45台NXT 1980Di,均已到货),今年国产7nm产能全部解决,那么英伟达嘚瑟的日子也一去不复返了。国产算力势在必行,各家都在积极适配。新卡的推出也可在部分场景缓解供需压力。

举报本楼

军衔等级:

  大元帅

注册:2007-12-101198
发表于 2024-1-29 11:39:31 |显示全部楼层
有压力国产替代才能加速。。。。

举报本楼

您需要登录后才可以回帖 登录 | 注册 |

Archiver|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2024-2-22 08:46 , Processed in 0.128971 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部