通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  大元帅

注册:2007-12-102118
跳转到指定楼层
1#
发表于 2025-9-24 09:40:19 |只看该作者 |倒序浏览
中国的算力芯片领域,正在悄然发生变化。
在2025年华为全连接大会上,华为发布了多款重磅芯片新品,包括昇腾950系列、960以及970等AI芯片,并公布了未来三年的昇腾AI芯片产品路线图。
其中,950系列采用了两个不同的后缀——PR(Prefill & Recommendation,预填充与推荐)、DT(Decoder & Training,推理解码与训练)。
传统AI芯片在处理大模型推理时面临资源争抢问题,而在互联网平台企业中,其推荐算法推理模型所需的内存容量也巨大。如何在算力、内存容量和内存带宽之间取得平衡,是提升投入产出比的关键。
华为的“P/D分离”设计就是尝试通过为不同应用场景配置不同的内存容量和带宽来实现这一目标。
这种设计正是针对中国AI市场面临的现实挑战:能够运行DeepSeek满血版几乎成为国内衡量AI计算系统的试金石。然而,要承载671B的参数,仅仅是采用不同版本Memory这一项的成本差异就可达数万美金。
可以说,中国AI产业的市场化需求,倒逼了国产芯片的产品创新。
从产品角度看,发布会上的这一最大看点,也是一个强烈的行业信号:
1)以DeepSeek为代表的应用与基础模型产业方,在持续不断且深度推动着中国AI芯片的发展;更进一步,受益于中国庞大的数据中心基础设施规模与未来需求,“华为-海光-其他”的生态格局基本形成;
2)时代亟需一个具备技术背景、但又对市场应用娴熟于心、同时又具有平衡取舍之道的产品经理人才梯队;
3)AI产业的繁荣与领先,是AI芯片突破与创新的前提。
一、产能已经不是问题,下一步是生态
从近期华为主动发出的信号,以及作者作为多年从业者获得的行业信息,华为的产能约束基本上得到了缓解。
数据中心的三大基石是计算、通信(网络互连)和存储,这是分析算力系统必须牢记的前提。在AI算力系统中,影响计算性能的,也可以划分为三个部分,设计算力值、计算(算力)核之间高速互联以及存储带宽。
在《英特尔暴涨 7%,软银投资 20 亿:一场关乎美国高端制造命运的豪赌》中,笔者曾经提到,算力的大小和工艺制程强相关,而这种高端工艺制程的主要体现就是Fab的高端产能与先进封装。
为华为提供类CoWoS封装的企业,今年已经出现产能盈余并向外释放,说明在7nm节点附近,华为的需求已基本得到满足。
再来看高速互联。
WAIC期间,超节点是AI基建的重头戏,其中,华为的CloudMatrix384成为了亮点,它的显著特征是其点对点、全互联、超高带宽的网络,通过 UB 协议连接所有的 NPU 和 CPU。
CloudMatrix384通过Ultra-High-Performance Networking实现了 CPU、NPU、内存、网卡(NICs)以及其他资源的完全点对点解耦与池化,其点对点硬件架构,包含用于超节点内扩展的超高带宽统一总线(UB)、用于超节点间通信的 RDMA ,以及用于与数据中心网络集成的虚拟专有云(VPC)。这再次证明,通信技术本就是华为的核心优势。
再来看内存带宽。
这次的发布会上,华为发布了950、960、970系列产品,其中最为引人注目的950系列推出了两个版本,从应用上看这标志着PD分离在硬件层面的解耦,但从结果来看,这说明内存带宽也跟了上来。
当硬件瓶颈逐渐缓和后,生态就成为必须攻克的下一个堡垒。2022年,当业内开始注意到CUDA生态之于英伟达的意义时,构建生态似乎成了老生常谈。
早在2022年,业界就注意到CUDA生态对英伟达的决定性意义。生态的本质是“生意”——只有让其中的企业、机构、开发者都能获得商业回报,生态才会真正繁荣。Intel的X86、英伟达的CUDA、苹果和腾讯的生态体系,都是基于这种逻辑。
这意味着华为也必须从“封闭”转向“开放”,从“肥水不流外人田”走向“利益共享”。这条路,Intel和英伟达已经走过,华为也必须走一遍。
幸运的是,华为并不孤独。另一家关键力量是海光。
在地缘政治风险的背景下,自主可控孕育了机遇。海光凭借X86架构优势,在信创和国产化市场中迅速崛起。其CPU在政企市场占据一席之地,同时在AI算力芯片、RAID控制器、高速网络芯片等方向逐步完善布局。今年5月,海光宣布与曙光合并,早前两家公司就已在生态层面进行协同,通过市场让渡与产业链深度合作,打造系统级生态。
由此可见,“华为-海光-其他”的生态格局基本形成。华为和海光在各自优势领域领先,其他厂商则在特定赛道发力。
作者预判,产业格局接下来可能呈现如下变化:
华为需要在IDM与Fabless模式之间做出选择,但无论如何都会保持对产能的强力控制;其次,合并后的海光下一步大概率会入股高端产能,潜在合作对象可能是华虹或中芯国际;在OSAT环节,则可能继续深化与通富微电的合作。
二、中国芯片产业的产品经理时代到来了
上文提到,本次发布的950系列之所以受到关注,核心就在于其PR和DT两个不同型号,这正是业界探索已久的“P/D分离”。
这又是一个类似于DeepSeek发布时的解码游戏。
为了解释清楚这个概念,需要看一下大模型的演进历程和中国AI算力面临的实际挑战。
大模型的参数量是从Billion(十亿)级别起跳,百亿千亿是常态,直至万亿级规模。这些参数需要容量非常大的空间进行存储,且由于计算时需要极高速访问这些存储器,就需要极高的带宽。这就催生出了HBM这种既有大容量又有高带宽的新型存储器。
在进行计算时,算力的大小也决定着计算的效率,因此一颗AI芯片的目标设计算力也会做得尽量大。
然而,很少有产品经理在设计中深入思考算力与存储带宽的最佳配比关系。毕竟,除了英伟达和Broadcom为大平台订制的AI芯片之外,能用起来已经是了不起的存在了。
但是,一个现实问题是,HBM的成本实在是太贵了,单GB容量的HBM是DDR的近乎10倍、甚至更高。对于中国的AI芯片公司来说,不仅成本压力大,而且想要获得足够的产能、甚至是稳定的供应都是一个挑战。
一个优秀的产品经理、架构师,之所以称为合格、优秀,就是要会优化、取舍,Trade-Off。做好优化与取舍的前提,是要对应用场景有深刻的理解与洞察。
在AI的应用场景中,对资源需求最高的,除了模型的训练过程,一个是大家耳熟能详的大语言模型,一个是每一家互联网公司的主要利润来源——推荐算法。
在大模型推理中,常用以下两项指标评估性能:
● TTFT(Time-To-First-Token):首 token 的生成时间,也就是从用户输入完毕到大模型回复的第一个字(母)所花费的时间,主要衡量 Prefill 阶段性能,这是一种计算密集型任务,对并行能力要求高,但是对内存带宽相对可以低一点;
● TPOT(Time-Per-Output-Token):生成每个 token 的时间,也就是用户直接感受到的回复速度,主要衡量 Decode 阶段性能,这一阶段对内存容量和内存带宽的要求更高。
当 Prefill 和 Decode 在同一块AI芯片上运行时,由于两阶段的计算特性差异,会导致 TTFT 和 TPOT 之间的资源争抢。若优先处理 Prefill 阶段以降低TTFT,Decode 阶段的性能(TPOT)可能下降。若选择提升 TPOT,则会增加 Prefill 请求的等待时间,导致 TTFT 上升。
这次华为的两个型号,采用不同的内存容量和内存带宽,应该是采取了PD分离思路,正是为了打破这一矛盾。
可以运行DeepSeek满血版,几乎成为国内衡量一个AI计算系统的试金石。
然而,要放得下671B的参数,仅仅是采取不同版本HBM这一项的成本差异就可达数万美金。而在互联网平台企业中,其推荐算法推理模型所需的内存容量也颇为巨大。如果可以在算力、内存容量和内存带宽间取得优化、取舍与平衡,投入产出比(ROI)就会提高。
时代呼唤专业的AI芯片产品经理。
事实上,在国内的芯片企业中,真正具备产品经理能力的人才非常稀缺。在曾经芯片主要还是由外企垄断的时代,一家芯片企业的Product Marketing 或 Product Line Manager是产品线的核心管理岗位,一般是由在总部的极少数人担任,随着中国市场的需求和美国出现了一定程度的不同,才有中国大陆人逐步跻身这一岗位。
而在中文语境下,“市场经理”常被理解为负责市场传播(Marcom)或市场推广(Business Development)的角色。在今天的国内AI芯片企业中,目前仍然是研发岗在定义产品。
从DeepSeek的满血版提出的要求,到FP8数据精度的国产化需求,直至这次P/D分离,隐隐中可以看到模型应用提出需求进而驱动产品定义这一趋势在中国已然发生。那么理所应当地,一个具备技术背景、但又对市场应用娴熟于心、同时又具有平衡取舍之道的产品经理,将成为下一阶段定义和推动算力芯片和系统发展的主导力量。
这个趋势,是AI芯片与AI系统专业化、精细化的开端,是产品运营上了新台阶的标志。
这个趋势,是“需求决定供给”这一经济学规律在AI的中国市场中的再次体现。
三、 AI产业是战略高地,AI芯片与AI产业可互相促进
正因为此,我们必须旗帜鲜明地说:不能为了发展AI芯片,而拖累放缓了AI产业的发展。
AI产业的繁荣与领先,是AI芯片突破与创新的前提。
AGI和可控核聚变是人类文明当前面对的两座生产力高峰。在当前的地缘格局下,大国的竞争围绕这两座高峰而展开。而企业之间的竞争,都在力图确保自己一直能留在牌桌上,不被时代甩在后面。
正如在战争一样,不能仅凭着热血和口号,但使用落后的武器装备去攻占战略高地,我们应该利用一切可以获得的优势资源去确保战争的胜利。
在通讯行业、在电力行业、在大基建行业,正是由于我们市场规模大、终端产业繁荣,一步步倒逼上游的技术突破与产品创新,最终在全行业上下游实现各环节的突破。
在AI产业的竞争中,首先要确保在竞争中留在牌桌上、甚至成为其中最为领先的佼佼者。正如这一次次的案例说明、也正如经济学规律所揭示的一样,只要AI产业我们处于世界领先水平,其所引领的趋势、提供的丰富场景和明确需求、以及最重要的资本与人才、行业know-how积累,最终都会推动我们的AI芯片、算力系统取得突破,这只是个时间问题。
不过,网络上有句流传很广的话:成年人不做选择,我都要。
作为一个超大规模经济体的中国,在行业丰富度、产业协同度和资本积累程度上,当前基本具备“都要”的实力。也就是说,在市场化经营的情况下,既有着使用世界顶级算力设施去冲顶的基础与必要性,也有着扶持AI国产算力所需要的资源与意愿。
努力奋斗的目的,正是为了可以争取更多的选择空间,于个人、于国家,皆如是。
经过各领域国人同胞们多年不懈的奋斗与多方面积累,我们身处产业变革与飞速发展的时代,这是理性者的福音,是魄力者的机遇,更是每一个普通奋斗者可能的逆袭之路。


举报本楼

本帖有 6 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-9-24 15:15 , Processed in 0.242943 second(s), 19 queries , Gzip On.

Copyright © 1999-2025 C114 All Rights Reserved

Discuz Licensed

回顶部