通信人家园

标题: 万亿AI存储鸿沟如何填平?  [查看完整版帖子] [打印本页]

时间:  2025-8-26 17:02
作者: see122     标题: 万亿AI存储鸿沟如何填平?


AI存储正迎来爆发式增长窗口期,随着Universal Storage架构与硬件解耦、软件定义等技术突破,新一代分布式存储作为更高效的数据基础设施,已能够实现百微秒级延迟与TB级吞吐,支撑训练、推理与Multi-Agent协同等核心场景,逐步成为AI时代存储层的主流选择。

本文深度解析AI时代下存储软件的技术路径与未来发展趋势,欢迎与我们交流行业机遇与投资机会。

硅谷AI存储公司 Vast Data近期正与谷歌母公司Alphabet 旗下成长基金 CapitalG 及现有战略投资者英伟达进行深入谈判,拟进行新一轮融资,估值高达 300 亿美元,这家成立仅9年的公司,先后获得了Tiger Global Management、高盛、DELL等知名投资机构和产业方注资,2023年12月刚完成一轮91亿美元估值的融资,短短一年半估值实现3.3x增长。Vast Data凭借在存储方面的架构创新获得了业务市场和美国资本市场的欢迎,也让中国资本市场开始思考:大模型给存储带来了怎么样的机遇和挑战?

为什么存储在AI时代焕发出了新的机会

在AI Infra中,计算、存储和网络是最基石的板块,可以说算力是引擎,存力是燃料,运力是血管,三者对AI应用顺畅运作至关重要。但在大众视野中,算力的性能释放非常直观,而存储所发挥的支撑作用却不明显。实际上,随着全球数据量以36%的年增长率持续扩张,预计到2030年将达到YB级规模,如何高效、安全地存储这些海量数据,成为了让算力将大模型发挥其应有效力的前提: “算力决定人工智能的底线,数据决定人工智能的上限”。

自2017年Transformer架构提出至今,大模型发展的重心也在不断发生转移,起始阶段是大模型的训练主导,核心目标在于通过扩大参数量和数据规模提升模型能力。之后大模型落地应用面临成本与效率瓶颈,推理专用芯片、MoE等与推理强相关的技术逐渐普及。Agent的出现推动了AI技术从单一任务执行向复杂决策与交互的转变,成为了AI应用最具想象力的板块。



在这个迁移过程中,对于存力的核心需求也产生了诸多变化,大致可以归纳为五点:

一、建立在可靠性基础上的极致吞吐、低延迟和高并发

吞吐:传统互联网应用仅需MB/s级,但大模型的训练阶段需要多GPU节点需数十GB/s持续读写(如梯度同步);推理阶段需要突发性百GB/s级吞吐(如KV Cache加载);到Multi Agent协作阶段甚至需要集群级吞吐,支持 500GB/s~1TB/s 级聚合带宽(万级QPS且每个请求附带MB级上下文数据)。

延迟:传统互联网应用即便是最高峰的电商双十一也能容忍10ms级延迟,而大模型的训练中AllReduce同步需亚毫秒级延迟,推理延迟>1ms就会触发服务降级,Multi Agent协作需要保持 <1ms 的存储响应,否则会导致Agent间任务流转阻塞。

并发:传统互联网应用并发简单,依赖横向扩展和缓存,延迟和吞吐需求宽松;大模型训练需要GB/s级强一致同步,存储带宽和延迟直接影响训练效率;大模型推理需要高QPS+低延迟,需避免KV Cache加载成为瓶颈;Multi-Agent需要TB/s级实时协作,并发复杂性和一致性要求达到极致,比如多个Agent同时修改同一段记忆,需分布式并发控制。

二、多模态数据统一管理和版本可追溯

数据类型从单一结构化数据(如文本)扩展到多模态(图像、视频、音频、3D点云等),那么存储方案需能同时管理对象存储、文件系统、块存储和KV数据库(如Redis),避免跨格式数据拷贝导致的冗余和延迟。

在模型微调和A/B测试中,要求存储系统支持数据快照和版本链,确保每次实验可复现。例如,GPT-4的RLHF阶段需追踪数万次人类反馈数据的版本差异。

为保证Agent调用外部数据的基础效率,元数据的管理也需要更加智能化,例如通过语义标签实现多模态数据的快速检索,替代传统繁琐的文件路径检索。

注:元数据是描述数据属性的结构化信息,例如数据的创建时间、格式、作者、存储位置等。它不包含数据本身的内容,而是解释数据的背景和特征,类似于“数据的说明书”。

三、以存代算

AI推理的效率优化主要就是解决算力和存力之间资源分配的矛盾。AI的运算现阶段是暴力运算——Attention机制的核心计算是Query-Key矩阵相乘(QKT),其计算复杂度为 O(n2)(n为序列长度),尤其在多轮对话中,相同上下文需反复计算相同的QKT,导致算力浪费。举例而言,DeepSeek 70B模型每10分钟产生25TB的KV Cache,但GPU显存仅几十GB,被迫丢弃后需重新计算。本该用在推理优化上的算力被重复矩阵运算牵制。

以存代算通过存储中间结果(主要是KV Cache)替代重复计算。KV Cache的存储维度为 n×d(d为特征维度),远小于 n×n的注意力矩阵,显存压力从平方级降至线性级。

基于持久化存储层(存力层)与算力层配合,将孤岛式的,容量非常有限的HBM显存空间扩展到无限大的外置高速存储空间,以存储IO访问代替GPU的重复运算,大规模的减少推理过程中的算力消耗,大幅提升推理效率目前已经是AI Infra领域的全球共识,新一代的存储软件架构将在本领域发挥出巨大价值,形成AI Agent推理场景算力+存力并驾齐驱的格局。

四、支持Agent记忆持久化

原生的大模型是“失忆”的,但Agent为实现任务执行的连贯性和个性化服务能力,必须具备记忆。记忆数据存在很强的碎片化特征,目前存储方案下,会将记忆打散存入图、文件、向量、对象、关系等多个模块,跨模态检索需多次查询和结果拼接,带来高延迟,而分散更新可能引发记忆冲突,需额外维护事务逻辑,复杂度陡增。各个模块均需要采用不同的硬件+软件部署方案,系统部署和维护的复杂度很高,存储空间也没有办法全局共享使用。为大量Agent的并行运行和互相协作构建更加通用,便捷的统一底层数据存储Infra势在必行。

五、自主性和安全性

自主可控在地缘技术博弈下已经成为“重要而紧急”的事,存储成为关键防线,必须适配国产化 AI 堆栈生态链,也要满足KV Cache+向量库防泄密,训练数据脱敏+推理隔离,确保核心数据不出境。

从另一个角度来看,当前软件的发展速度已严重落后于硬件技术进步,成为制约AI性能释放的关键瓶颈。

从关键硬件模块的发展来看:

①存储容量:增速远超摩尔定律,如NVMe SSD容量年增50%+,而摩尔定律仅年增20%。



②算力跃迁:从CPU到GPU/TPU的异构计算,AI算力爆发式提升。



③网络带宽:RDMA(远程直接内存访问)延迟低至十微秒级,比传统TCP/IP协议栈快10倍以上。



不难看出,硬件进入“超摩尔时代”,与传统的存储系统软件已经形成了明显的“剪刀差”:



存储设备硬件访问延迟以及网络访问时延均已降至十微秒,但传统的系统软件栈开销仍然在百微秒级别——硬件性能提升被传统存储软件架构的低效率所吞噬,导致数据洪流阻塞(如GPU直接访问存储的路径冗余)和算力闲置(GPU等待数据搬运的时间远超计算时间,RDMA网络优势因软件协议栈无法充分发挥)等矛盾。

为什么传统的存储软件架构难以为继



传统存储架构的问题可以归结于OS内核依赖导致的效率瓶颈、元数据与数据混合存储的扩展性缺陷和存储协议分立导致的数据孤岛与迁移开销。

举例说明,三个智能体协作处理一份大型数据集,A负责采数,B负责清洗,C负责训练模型。A以高速流形式接收并写入原始数据,因为数据量大、无需修改,走对象接口。B需要读取原始数据,进行清理和转换,并输出中间结果,因为需要按目录结构组织版本化数据,走文件接口。C需要高效随机读取清洗后的数据块来训练模型,走块接口,以获得最低延迟和最高IOPS。

一、OS内核依赖导致的效率瓶颈

系统调用与上下文切换 overhead:三个Agent进程会并发地发出海量的read/write系统调用。每次调用都需要CPU在Agent进程和OS之间进行上下文切换。当每秒请求达到百万次时,CPU时间大量浪费在切换上,而非处理实际数据。

数据拷贝开销:数据从“硬件设备”通过DMA传到内核缓冲区,然后再拷贝到Agent进程的用户空间内存中。这个多余的拷贝消耗大量CPU周期和内存带宽。

传统的存储系统软件是完全依赖于OS内核来完成CPU内存等硬件资源的分配和调度,网络和硬盘等外部设备的读写访问的,在今天这个高速硬件和高速的RDMA网络时代,这种传统系统软件的基本范式已经成为了严重的效率瓶颈。

摆脱OS内核的依赖和束缚,在存储软件内部自主高效完成内存分配与管理,网络访问与交互,硬盘等外部设备的读写、CPU与线程调度等是新一代存储系统软件的根技术之一,将使得存储系统软件的IO处理效率提升10~30倍,时延降低90%。可以类比为GPU在特定计算场景(比如矩阵运算)对比CPU的效率提升。

二、元数据与数据混合存储的扩展性缺陷

元数据热点:B需要频繁访问“文件存储”中数百万个小文件,每次访问都需要先查找其元数据(inode)。海量的元数据访问请求会使得存储元数据的磁盘区域成为性能热点。然后实际的数据读写操作被阻塞,延迟飙升。即使底层是高性能SAN存储,速度也无法发挥。

全局命名空间局限:随着文件数量爆炸式增长,存放元数据的目录结构变得无比庞大。传统文件系统的元数据管理是集中式的,在大容量高并发访问下容易成为读写热点,并且难以扩展。列出文件目录或查找文件等操作会变得极其缓慢。

三、存储协议分立(对应图中“块接口”、“文件接口”、“对象接口”的孤立)

数据孤岛与迁移开销:A将数据写入对象存储,但B需要处理时,它无法直接高效读取对象存储中的数据,必须先将数据迁移到文件存储中。同样, C为了获得最佳性能,又需要将文件存储中的数据导出到块存储卷中。后果就是同一份数据被存储了三次,不仅占用额外空间,还需要消耗复杂的工程代价来做数据的迁移,更在迁移过程中产生了巨大的网络开销和延迟,严重拖慢了整个流水线的速度。此外,这种数据在不同的孤立系统中往复迁移的工程手段,无法保障数据的一致性和实时性,将导致AI无法参与到实时业务流程中去。

管理复杂化:每个存储接口都有其独立的“策略、管理、安全”配置。管理员需要为同一份数据在三个不同的系统中分别设置备份、快照和访问权限,运维复杂度成倍增加。

由此看来,传统存储架构成为AI落地应用的效能阻碍,打补丁式优化无济于事,必须重构存储基座。

AI原生场景中理想的存储软件架构是怎样的

正如GPU的诞生源于CPU在并行计算和高吞吐场景的固有局限,存储软件需要适配“GPU + NVMe全闪 + RDMA网络”新硬件环境的新技术栈——Universal Storage架构诞生于传统存储架构在AI原生场景中触及天花板之时。

Universal Storage架构是一种支持多协议、多数据类型的分布式存储架构,旨在通过单一平台整合传统的块存储(SAN)、文件存储(NAS)、对象存储以及新兴的KV存储,向量语义存储等可以理解为对 “存储软件”层的彻底重构和增强。它通过一套统一的软件栈,将所有存储资源抽象化、池化,并通过全局管理界面提供服务,使企业在计算存储需求时不必在成本和容量之间做出权衡决定,无需面向不同的业务系统和数据特征,采购和部署不同类型的存储产品(主要是以专属硬件设计为主的存储产品),也无需再对数据进行传统的分层。



继续以Vast Data的方案为例,说明Universal Storage如何解决AI原生场景下传统存储架构的问题。

一、统一存储池与多协议访问,不再有分立的协议

所有数据存放在一个统一的全域文件系统(DASE)中,提供文件、对象、块、KV多种协议访问。

Agent A通过对象接口将原始数据写入Vast集群的一个Bucket中。下一秒,Agent B立即通过文件接口,像访问一个普通文件系统一样,直接找到并处理Agent A刚写入的那个文件。无需数据迁移或格式转换。同时,Agent C可以通过块接口,将一个包含清洗后数据的目录挂载为本地高速块设备,进行极致性能的随机读取。

管理员只需在一套管理界面上设置一次数据保护、快照、备份策略、权限管理策略,即可对所有数据生效,无论它以何种协议被访问一份数据,三种协议同时访问。彻底消除了数据孤岛和迁移开销,极大简化了运维管理,TCO(总拥有成本)显著降低。

二、元数据独立存储解决扩展性难题

元数据与数据分离,并由专用的、分布式的元数据引擎管理,且存储在分布式的持久内存或高速SSD中。

Agent B需要列出并读取一个包含数百万个清洗日志文件的目录。请求发出后,全局元数据引擎在毫秒级时间内返回结果。所有元数据操作都由专门的节点处理,完全不影响存储数据块的其他节点性能。无论文件数量多少,目录列表和文件查找都快如闪电。Agent B可以立即开始数据处理,没有延迟。

三、解决OS内核依赖实现低延迟

Agent C需要读取一个数据块时,Vast的用户态驱动通过RDMA直接从NVMe硬盘将数据零拷贝地送入Agent C进程的内存,甚至直接送入GPU显存),如此一来,CPU开销极低,延迟降至数十微秒级。Agent C的GPU几乎无需等待,持续进行计算,训练效率最大化。

Vast Data为Multi Agents协作带来了根本性的变革:

性能解放:全用户态存储软件和RDMA技术将硬件性能压榨到极点,100%释放给应用,Agent计算不再等待I/O。

无限扩展:分布式元数据引擎让数十亿文件访问变得轻而易举,Agent协作不再受系统规模限制。

极致简化:统一存储池和多协议接入使数据自由流动,Agent们可以毫无障碍地共享和处理同一份数据,运维复杂度从三维降至一维。

Universal Storage架构并非简单的软件优化,而是一次彻底的范式转移。它将存储从“以许多台互相孤立的单台硬件设备为中心”的分散模型,转变为“以全局统一数据为中心”的聚合模型,通过软件定义的方式,为AI、数据分析等现代工作负载提供了前所未有的性能、扩展性和简洁性——如此有价值的架构创新,如此有价值的架构创新,Vast Data势必会在AI时代能突飞猛进。

对标Vast Data思路

如果想要在中国寻找一家能够对标Vast Data的公司,大概是怎样的画像?

首先需要有强技术背景,长期自主研发存储系统软件,创新能力和工程能力均十分强悍的团队:面向企业关键业务场景的分布式块存储、分布式计算和大规模公有云平台底层系统级研发,工程实施和运维经验

之所以强调面向企业关键业务场景的块存储,是因其在存储模块中技术难度顶尖, 企业用其承载最关键的业务系统和数据(比如各种OLTP交易型数据),要求存储系统能支持极高频的随机读写小IO,最低的访问时延,最严苛的数据一致性,可靠性和业务连续性保障,是企业级存储系统的皇冠上的明珠。华为OceanStor Dorado和DELL EMC等存储巨头的集中式高端存储阵列几乎垄断了全球块存储市场——可以说,块存储完整的开发经验是建立能够覆盖全存储链条架构的基础,不能够支持企业关键业务场景和核心数据的新一代存储架构,是注定无法达成实现Univeral Storage, 融合企业场景所有数据的存储和智能访问需求这一目标的。

Vast DATA CEO Renen Hallak 正是前EMC ScaleIO核心开发者,将 XtremIO 扩展到数十亿美元的收入。负责商业化的联创Jeff Denworth 来自DDN、CTERA Networks 和 Cluster File Systems,为 VAST 带来了二十多年的先进计算和大规模可扩展大数据及云存储技术经验。CTO则曾在 Kaminario 和 IBM 担任领导职务。

其次是拥有足够的战略视野,创新能力,工程能力以及巨大的勇气,从底层系统开始创新设计,结合新一代系统架构和硬件的发展以及AI时代的数据融合高效访问的需求,研发出统一分布式存储架构,适配通用硬件构建统一的存储资源池,既支持块、文件、对象等传统存储接口,尤其又需要创新设计新的IO访问路径和新型接口来支持AI 核心场景:包括KVCache全局持久化共享、Agent记忆体存储等,成为AI应用刚需品。

最后是生态开放性和硬件中立性(软件定义),不依赖于特定专属硬件,能够无缝对接国产算力芯片、硬件、训练框架、推理框架、Agent、云计算、数据库等。

结语

作为一门Infra软件技术,基于新一代分布式存储系统软件构建的Universal Storage有着独特的投资价值。由于AI催生的对存储性能,扩展性,数据融合,以存代算,支持推理,RAG, Agent等大量新兴需求,传统的企业级存储市场存在一次大洗牌的颠覆性机会,同时推理,Agent,向量化,Agent上下文过程数据,物理世界数字化等又将进一步导致数据量的大爆发,引发存储层的投入大幅增长。

存储属于标品形态的基础产品,如果设计得当,产品方案可以做到完全标准化,人效比和边际效益极高。

分布式架构的存储具有一定耗材属性,可以从小规模起步,随着业务数据增长轻松的扩容到数千到节点,企业存满一个节点之后不会删除复用,而是扩展采购新的节点。在移动互联网时代,企业更新存储的restore cycle一般是三到五年,AI Agent时代数据量暴涨下,这个cycle会大大缩短,基于分布式架构的Universal Storage有望成为企业采购和建议下一代存储时的首选方案。

新一代Universal Storage存储软件技术护城河深,目前全球范围内也缺少这样的开源软件可供借鉴和商业包装,仅技术和工程门槛就能够把绝大多数的模仿者挡在门外。客户迁移成本高,营收质量和可持续性往往更好。

正是因此,新一代Universal Storage存储软件赛道十分值得关注。相信在Agent应用爆发的将来,中国会诞生出比Vast Data更加优秀的存储软件巨头。


来源:36kr





通信人家园 (https://www.txrjy.com/) Powered by C114