猫叔 傅里叶的猫
说三个话题。1、Meta联手AMD晚上刚传出的消息,Meta 将部署总功率达 6 吉瓦的数据中心设备,全部采用AMD的处理器。
1GW的数据中心,总的开销,不同公司给的说法不一样,老黄说是500亿美元,但这个数字应该是高了。之前Bernstein给过一个数据,差不多是350亿美元。那总共就是2100亿美元。
按照英伟达的GB200 NVL72来算的话,GPU服务器是占了57.4%的成本,那就是1200亿。当然这都是按照英伟达产品的算法。
按照新闻中所讲,Meta要买的是AMD的MI450,那就还不是超节点,但由于这是个5年期的采购协议,因此后面一定会上超节点。
作为协议的一部分,Meta讲分阶段获得认购1.6亿AMD的认证股权,按照目前的股价来算,这部分价值330亿美元。
Meta 过去几年多次因为 Nvidia 供应跟不上而被迫调整计划,现在 Meta 的 AI 野心极大(目标是“personal superintelligence”时代,2030 年前可能建几十到上百 GW 算力),不可能把所有鸡蛋放一个篮子,这个大家都理解。
去年11月份就有新闻传出Meta要买谷歌的TPU,甚至后面Meta还把自家的CoWoS产能让给了TPU,都是为了分散风险,优化 TCO。
但这也必然带来软件栈碎片化的痛点:Nvidia 用 CUDA,AMD 用 ROCm(虽在追赶,但兼容性不如),TPU 用 JAX/XLA 或 PyTorch/XLA,MTIA 用自家框架。模型要跨平台跑,就得写多套 kernel、优化器、调度器。
但也许未来AI本身就可以解决软件栈不匹配的问题。
海力士的HBM4
下午就有消息传出海力士的HBM4出问题,12nm base die要修改光罩,大量供貨可能会延后1季度以上。
海力士HBM4的问题下午我也在其他渠道听到了,但Rubin的进度,目前看下来还比较正常,还没有听到delay的信息。
这些我们在星球都说过了。
机构做空闪迪
今天Citron在X上宣布做空闪迪。
Citron的做空观点主要是有两个:
1、Memory依旧是周期行业,终将见顶; 2、三星开始与闪迪竞争SSD市场,目前的供应紧张问题,不过是三星在另一条产品线的暂时性的良率问题。
大概说下我们的看法。
Memory现在已经是制约AI的一个卡点了,产能是一方面,AI训练推理对Memory的带宽和容量的需求越来越高,到了2030年,肯定不是目前这种HBM+DRAM+SSD的架构,针对AI场景的Memory的技术升级和更新迭代都一直在进行,这种技术升级不是单纯的从HBM3e升级到HBM4,或者从DDR5升级到DDR6。而且AI服务器整个存储架构的升级。所以未来Memory不仅仅是要解决缺货的问题,更是技术升级的问题,谁能跟NV/谷歌一起搞出下一代存储架构,谁就能胜出。
|