通信人家园

 找回密码
 注册

只需一步,快速开始

短信验证,便捷登录

搜索

军衔等级:

  少校

注册:2010-4-2811
跳转到指定楼层
1#
发表于 2025-5-13 09:34:59 |只看该作者 |倒序浏览







算力当前最大的问题还是无序的市场秩序,还有内卷式的价格竞争。

4月28日,由「甲子光年」主办、上海马桥人工智能创新试验区联合承办的「AI共潮生——2025甲子引力X科技产业新风向」大会在上海工业智能中心盛大启幕。

在下午场的「数据筑基·算力革新:协同存储与异构,解锁AI时代新质生产力」圆桌对话中,真知创投董事总经理陈超担任主持人,与趋境科技CEO艾智远、希捷科技中国区市场营销负责人俞康、西云算力CEO庄宁、Zilliz合伙人兼研发VP栾小凡,围绕GPU荒与国产替代、智算中心数据与存储、AI Infra降本增效、 算力成本、算力性能、企业级落地门槛等问题进行了深度探讨。




真知创投董事总经理陈超

趋境科技CEO艾智远指出当前算力建设与AI应用落地存在断层,私有化部署中硬件成本(如671B模型部署需数百万)远超客户实际预期成本,形成商业闭环阻碍。

他认为,软件层对推理做全栈优化是破局关键,需通过硬件算力的异构协同,充分释放GPU、CPU、存储等硬件的算力,提高算力利用率。国产算力经深度优化也可接近国际领先水平。




趋境科技CEO艾智远

希捷科技中国区市场营销负责人俞康提出了存储的三大挑战,第一是AI生成的数据爆炸, 到2028年,全球数据量将达到394ZB,其中生成式AI单独贡献100ZB,催生非结构化数据管理难题,需兼顾容量、性能、能耗;第二是存算协同不足制约大模型实时性需求;第三点是数据质量合规性的问题。合规与数据质量是构成可信赖AI的基石。




希捷科技中国区市场营销负责人俞康

西云算力CEO庄宁认为当前算力市场陷入了无序价格战,资金与技术密集属性被忽视,威胁行业长期发展。对此,应通过软硬协同的集群架构、闲时调度优化、业务适配工具集开发等提升现有资源利用率,同时积极提升国产芯片在软硬件层面的适配性,布局异构算力。




西云算力CEO庄宁

Zilliz合伙人兼研发VP栾小凡作为向量数据库行业的代表,指出当前向量数据库的性能瓶颈集中于内存带宽与磁盘延迟,非算力本身;同时,国产算力生态割裂,开发适配需要3-6个月优化周期,这也给向量数据库带来了挑战。他呼吁算力降价以倒逼应用爆发,并认为这需要行业共建存储、网络、软件标准以释放生态潜力。




Zilliz 合伙人兼研发VP栾小凡

以下是本场圆桌的对话实录,「甲子光年」整理:

陈超(主持):感谢主办方邀请,也非常荣幸能够邀请到各位嘉宾一起探讨算力这个前沿领域的话题。大家都知道今年随着DeepSeek的爆火,对于算力的各种要求有了新的认知。在企业级落地算力的过程当中,我们对算力成本、算力性能以及落地门槛有了更进一步的要求。在AI大模型时代,会给存储、数据、AI Infra,以及算力中心又提出了怎样的新需求和新挑战,下一代的智算中心又是怎样的形态?今天我在圆桌论坛当中会和各位专家进行深入的探讨。

作为开场我想先请各位专家简要地介绍一下自己和自己所在的企业。

艾智远:感谢甲子光年给这个机会大家一起探讨AI算力相关的工作,也感谢陈总的介绍。

我是趋境科技CEO艾智远,我们是一家做大模型推理优化解决方案的公司,我们是从清华出来的一批人,通过软件的方式优化整个算力,我们希望能够在数量级级别降低大模型部署的门槛,以及大模型运行的成本。

我们有两个开源项目可能大家会更熟悉,一个是KTransformers,一个是Mooncake。KTransformers更倾向于中小规模的端侧型部署,主要是通过GPU+CPU的异构协同做整个大模型的推理,KTransformers也是首个用一张GPU+一个CPU+512G内存把671B的模型在端侧跑起来的推理框架;

Mooncake是当前分布式的实施标准,也是我们和清华包括Kimi等产学研机构一起开源的整个方案,通过PD分离和以存换算的模式做大型云上部署,帮助Kimi承接了线上超过75%的流量。

俞康:大家好我叫俞康,我来自希捷科技,负责中国区市场营销和产品线管理,覆盖云、边缘、端等领域。希捷科技是一家专注于数据存储方案的科技公司,我们自1979年就成立了,1979年成立以来一直致力于为合作伙伴、客户提供创新数据存储的技术。一提到希捷科技,相信大家都知道我们是做硬盘的。但是实际上,希捷科技已经在全面布局AI时代的数据基础设施,为人工智能发展提供更好的数据基础底座。近些年AI发展起来,我们与合作伙伴、客户一起探讨AI发展对数据存储提出哪些新的挑战,以及能够为客户提供更好的最优的解决方案。

今天特别期待和各位生态伙伴一起讨论,看看我们将来怎么样共建一个更高效、更有效、更可持续的数据基础底座,我们也希望大家紧密合作,看怎样让我们的数据释放更多的潜能,为行业发展注入新的活力。

庄宁:非常感谢甲子引力给我们这个机会,我是西云算力的庄宁,我们在宁夏建了一个自己的算力集群,我们主要的业务是为大模型提供底层算力。除了大模型之外,我们也为众多的开发者提供各种的弹性资源。

目前我们已经开发了自己算力调度管理平台,还有我们面向开发者的智算云平台(丹摩平台)。从今年开始,除了在宁夏之外,我们也开始在北京、浙江部署新的算力集群,也希望我们能够为行业内的同仁提供更好、性价比更高的算力,谢谢各位。

栾小凡:大家好,我叫栾小凡,来自Zilliz。我们公司的名字是两个回文的单词,体现我们是一家做海量非结构化数据处理的公司,我们公司最重要的产品是开源的向量数据库产品Milvus和云上托管产品Zilliz Cloud,今天很高兴有机会和大家分享,在今天的算力时代里面从数据和数据库的视角,怎么看待算力的问题,谢谢大家。

陈超(主持):感谢各位嘉宾的介绍,各位都是AI技术架构生态圈的一员,有做存储、有做Infra的,有做智算中心、有做数据库的。所以想请教大家一个问题:今年的算力圈异常火爆,大家都是在一线实践、真正看到过实际的情况,那么当前我们在一线看到了哪些所谓的“真问题”?

艾智远:实际上从2月份开始比较火的是一体机,算力建设非常火爆,但是私有化的算力建设最大的问题是算力建设和应用落地的GAP。虽然算力建设得比较快一点,但是实际上客户的应用还在探索的过程中,这里面遇到的问题就是早期探索期的应用产生的价值点,对应的价格比算力的价格更低。

比如说在一个项目落地的过程中,要落地使用一个671B的模型,不管是国产化还是非国产化的方案至少都是几百万起。当前应用处于的阶段,可能整体的价值还达不到几百万的量级,这明显在成本和应用的落地过程中有很大的断层。我遇到很多的项目,客户想要去落地应用,但是首先又要部署一个671B的大模型,建小机房可能就需要花超过200万,应用根本就没有办法往下落地,这是我遇到的比较大的问题。

俞康:我分享一下从希捷做数据存储的角度我的一点看法,我觉得有几点:

第一点是数据爆炸和存储需求之间的矛盾。

举一个例子,现在生成式AI这么普及,每个人手机里都有好几个AI APP。大家有没有注意到IDC有一组数据,说2028年人类数据会到达394 ZB。其中关键一点就是有100 ZB是由生成式AI生成的,也就是说人类有史以来记录的数据25%会在接下来三年由AI生成,这是非常可怕的。不仅对我们的存储容量提出了巨大的挑战,而且对存储的性能、存储的可靠性都提出了非常高的要求,特别刚才还有人提到能耗的问题。

394 ZB的数据中,百分之八九十都是非结构性的数据,所以这个数据在里面存着以后,我们怎么样更好的管理,怎么样更好的存储,这是第一个绕不开的话题。

第二点是存力和算力之间的高度协调。

AI落地离不开存力和算力的高度协调,大模型在计算过程中,在推理的过程中对数据的调用,对云和端之间的反应时效性有极高要求,对于存储系统则要求大容量、高性能、低延迟。怎么样做到这些事情,怎么样提供更多的技术创新,包括怎么样做层级的数据存储、优化架构是第二个绕不开的话题。

第三点是数据质量与合规性的问题。

高质量的数据是我们构建所谓值得信任的AI非常关键的支柱,如果数据不准确很大概率大模型做出来推理结果是错误的,合规性就是对数据存储和管理更是提高了复杂性。所以对于企业来说,一定要关注数据的准确性、完整性、一致性,还要关注相关的法规,避免不必要的风险。

所以希捷在这方面的角色是非常明显的,我们是做AI基础数据设施的搭建者,我们也知道算力和存力相互协调不仅是技术问题,而且是大家生态行业的共建,所以我们也希望大家能够携手共建,能够打造更高效、更快速、更灵活的基础设施,为行业的发展助力。

庄宁:在算力这个行业,当前最大的问题还是无序的市场秩序,还有内卷式的价格竞争。短期来讲,可能对于算力需求方来讲这是一个好的事情,但是从长期来讲已经影响了整个行业的生态和可持续发展。

因为算力这个行业并不仅仅是资金密集的行业,也是一个技术密集的行业,工程技术也是一个很高的要求。

从这几年来看,有各种的投资人进入到了这个行业,总体造成了这个行业一下子发展成过热的状态,从算力行业来讲这可能是很影响未来发展的隐患。

栾小凡:我有三个看法,第一,特别同意刚才艾总说的,我们起来存在整个算力Infra和应用价值之间的不匹配,要解决这种不匹配我的观点是Infra必须降价,算力必须要降价。

刚才庄总提到的内卷问题,我个人觉得内卷是必然的,当Infra的价格下降10倍,我们就可以看到10倍以上的用例,这就是通过DeepSeek看到的最基本的点,就是DeepSeek把整个算力使用成本和门槛降低以后,我们看到大量的应用爆发。作为我们做算力和Infra的公司来说,内卷是必然的,并且一定要通过技术的方式进一步地降低整个的算力成本。

第二,算力和其他的一些硬件和资源的不匹配。

这里面包含做存储的公司,也包括做网络的公司。因为从过去几年的经历里面可以看到,以GPU包括国产化硬件为代表的算力的提升速度是非常快的,但是我们的网络以及我们的存储能够提供的带宽和fIops的提升相对来讲是比较缓慢的。

作为一个做向量数据库的公司,我们发现在构建整个系统的过程中,很多时候瓶颈没有卡在算力的层面上面,而是卡在存储和网络这层,包括在座有一些了解大模型训练的也清楚,今天主要的瓶颈算力只是一个很小的部分,核心是怎么把更多的卡连接在一起构建一个更大的集群,里面有机房的问题、卡的问题,有非常多的其他问题作为里面的瓶颈。

第三是算力生态。

很多时候不是大家没有算力,而是整个生态的布局导致这些算力没有办法被充分使用。我们国产的一些算力和以英伟达为代表的海外算力对比,从各种各样的参数上来讲我认为我们并不落后,但是在实际对接的时候就会发现因为中间的生态尤其是软件生态的缺乏,会导致对于整个开发者来讲这件事情是极其不友好的。

我们基于GPU做向量数据库的索引的过程中,我们大概花了3-6个月时间实现了CPU10倍以上的性能提升,但是在和国产算力对接的状态下,我们发现这件事情非常困难,我们需要有大量的合作伙伴、硬件供应商甚至包括中间层的支持,才能把中间的流程跑通,无论是中间的推理还是开发者的生态,都限制了我们对于算力的使用。

陈超(主持):接下来想请教一下俞总,第一个问题是:随着智算中心的大规模落地,其实很多地方都开始将原来的DIC升级为AIDC。在整个AI时代,将给存储行业带来怎么样的改变?

俞康:AI时代我们看到智算中心的发展非常快,所以像你刚才说的IDC(数据中心)慢慢逐渐升级为AIDC(智算中心),这个转型对我们存储行业的影响确实非常深远。

刚才已经讲到比如说AI的应用落地,对于存储要求是非常高的,像您刚才说的大规模随机读写、混合编译、在线推理,这种并发式的应用对我们的存储要求必须要大容量、高性能、低延迟性,所有的这些要求我们怎么样实现它。

这个时候我们希捷有两项技术创新HAMR、MACH.2,这两个技术正是应对这样的挑战。HAMR是热辅助磁记录的技术,相当于通过提升单碟的存储密度增加,提高整个单盘的容量。现在,单盘容量已经可以增加到30、40甚至50T,我们希捷基于HAMR技术去年发布了魔彩盒3+(Mozaic 3+)平台,在这个平台上我们30T以上的硬盘已经在市场上批量发货了,它满足了数据中心对海量数据的需求。这个盘还有另外一个特点,就是在增加容量的过程中其实并没有增加能耗,所以在单盘的能量和以前相同的一块盘的能耗是一样的,也就是说这样的话,数据中心单TB的TCO(Total Cost of Ownership,总拥有成本)会有一个非常大的改善,极大降低了数据中心TCO。

第二个技术是MACH.2,是引用了飞机马赫(的名称),相当于双磁臂的技术,是为了解决随机性的性能下降问题。大家可能知道传统的硬盘随机性的性能会随着容量的增加逐渐下降。这个双磁臂几乎可以做到性能倍增,这样可以帮助我们的数据中心特别是AI大模型推理做到在高并发的任务需求下实现较快的速度和较好的性能。

其实刚才除了主持人提到的两个技术,我今天还要提一下我们的希捷在引入NVMe的接口放到我们的大容量硬盘里面去,所以我们也在不断的推进将NVMe的接口作为未来硬盘的标准协议。希望各位合作伙伴能够支持,我们将会把AI的数据管道进行很大的优化,降低数据存储的瓶颈。

希捷就是通过这样的技术创新,不仅满足了对大容量的需求、高性能的要求,而且我们还在不断优化能效,能够满足数据中心可持续性的发展,谢谢。

陈超(主持):下一个问题想请教小凡总,Redge多模态检索要求毫秒级的并发,包括GPU、FPGA乃至专用ASIC芯片等正在进入向量数据库的内核,Milvus / Zilliz Cloud 将如何在算力受限甚至多租户的环境中,同时兼顾 QPS、延迟与成本?未来会否考虑把近数据处理(NDP)能力直接融入数据库节点?

栾小凡:过去几年里面,我们看到最核心的挑战,作为向量数据库这一层,我们主要为大模型和AI应用去提供数据的检索核心能力,最大的挑战是在成本扩展性这两个点上面。

我们过去探索过非常多的方案,包括基于GPU去构建向量检索服务,包含了定制的硬件。从成本的角度上来讲,或者从算力和性能的角度上来讲,都拿到了很好的优化。目前最大的问题,从技术角度来看,其实没有卡在算力侧,而是卡在了内存带宽和磁盘的延迟上面,这个是我们目前最主要的挑战。

相应的,我们的解法是寻求更加定制的硬件和存储的一些solution,在今年推出了整个向量数据湖的解决方案,更多面向了离线的训练场景或者说交互式查询,以牺牲一定的延迟为代价去降低整个算力的需求,提升了吞吐,并且帮助用户去节省成本;同时在高性能的搜索领域里面,我们也引入了定制硬件、无论是基于ARM或者是CPU的加速和GPU的加速解决方案。

至于刚才主持人说到的近存储的计算,确实是我们探索的方向,刚才也提到的带宽可能是我们目前最大的问题。如果我们能够把一部分的计算下推到我们能够有计算资源的device上面,确实对于我们性能有非常大的帮助,这个也在跟一些合作伙伴做探索。

陈超(主持):请教一下庄总,最近我们看到H20又被禁了,在GPU荒与国产替代并存现实当中,我们西云算力如何通过网络拓扑和节点设计,包括一些商业计费模式等确保有拿得到用得起的算力,当新型芯片,比如说MI300,GB200或者是昇腾的910B、910C等新芯片落地后,我们西云这边的资源池,调度策略与商业模式又会有什么样的新的迭代计划,有请庄总。

庄宁:关于H20准确来讲,他是许可证的制度,我们在努力分析,为什么改成了许可证,这里面代表了一定的弹性,至于首批许可证什么时候发,发多少,什么条件,我们很难去回答这个问题,从这个角度上来讲,我们现在也在观望和密切关注相关的一些进展。从我们自己来看,主要还是在用技术上弥补一些工作,所以我们目前主要的研发放在几个方向:

第一个,提升已有资源利用率,这里面做几个事情,第一个是降低故障率,尽快缩短故障的恢复时间,让整个集群利用率更高;第二个是加强时间上的协同调度,让闲时的资源能够利用起来。

第二个,我们重点在做的就是让算力集群和业务,跟模型或者说各种的智能地的应用去适配,我们现在目前也在利用很多的工具,逐渐形成工具集,通过这个让现有的资源能够对于业务有更好支持。

第三个,我们现在也在开始做异构算力的研发,包括我们现在跟一些国产的芯片,我们也在开始做一些适配和测试。我们总体来讲是用技术的手段来尽量弥补我们管制上的不可控的因素。

陈超(主持):感谢庄总。下一个问题请教一下艾总,随着DeepSeek-R1的强势破圈,让原本就横断在企业落地大模型过程当中的性能与成本问题更加凸显,尽管DeepSeek训练推理成本有不同程度的降低,但是真正落实到企业业务当中,实际部署成本不低。趋境科技深耕于这样的一个业务,也推出了一体机,请问艾总,您如何看待企业落地大模型成本的问题,你们公司为了降低大模型落地成本在技术和商业侧做了什么努力?

艾智远:我们看到的成本来自于两方面,一方面是企业落地大模型的门槛的成本,第二部分是来自于企业将来推出自己大模型应用的成本。

我们先说第一个成本,现在大模型在私有化落地处在什么样的阶段,叫做算力的导入期或者说大模型的导入期,去年大模型没有这么火,DeepSeek爆火后需要落到实际的应用里,要解决的第一件事情就是前期的试错成本,这个是很明显的门槛,去年主打模型是70B的模型或者32B的模型,这类模型对于算力的起步门槛要求没有那么高,现在变成671B的模型之后,部署模型的起步门槛大幅度提升,客户是既要又要还要:既要成本,又要效率,还要更大参数效果更好的模型。在前期需要一个很低成本的硬件支撑,同时也要能抵抗住当前大模型的快速发展,这几家大模型公司一个比一个卷。

DeepSeek-R2发布时,模型参数会不会再突破极限值,也有可能。千问也刚发布了自己的新模型,包括KIMI也有自己的模型,这些模型大小的变化,会不会引发对算力的新的要求,比如说现在单台H20 141G乘8,可以放下DeepSeek 671B的FP8,如果这个模型再大一圈,算力上怎么适配,也会成为一个大的问题。

第二个成本,现在所有一体机的方案,是在benchmark的逻辑之下测出来的性能方案,当企业在真正落地过程当中,应用所带来的token的量级,是比现在测出来的token要高一个数量级的要求,这个过程当中对于算力成本要求更高,这是一系列要去解决的问题,包括前面嘉宾讲到的这些东西,存储、网络、向量数据库,都存在大量问题要解决。

我们这边想从技术层面和软件层面去看,如何通过高效利用硬件本身来做更大的性能提升,我们从最开始就没有完全瞄向GPU的算力,我们在想的问题是除了GPU之外,还有什么事情可以利用,KTransformer的开源项目是CPU+GPU的概念,因为当前这个时代的GPU、CPU和内存和上一个时代的逻辑设计差距比较大,上一个时代里面CPU和内存之间是一个解耦的关系,GPU的显存和计算单元是完全绑死的,显存越大,计算单元往往更强,这个时候成本也比较高。

所以KTransformer在CPU层面上做了很多的工作,我通过大内存,即便这个模型再大一圈,比如说到万亿级别的模型,如果把内存扩大到1T或者是2T,也可以把模型运行起来,虽然说并发降低了,但是成本也很低。

第二个,真正到大规模使用的过程当中,我们还是要解决算力问题,比如客服型的应用、用户一次问题访问,带来好几次的大模型的调用,这个时候对于token的使用量非常庞大,对于GPU算力的需求是无穷尽的,所以在mooncake的项目里面主要是通过以存换算节省计算资源。

所以我们在产品侧的整个设计来讲,有更小的Box、也有工作站、服务器,这几种不同的设计是支撑了各种不同客户对于大模型的诉求。

但是不管是最小的Box,还是我们和联想、华为也要合作一起推出的产品,包括在最大的server,我们都能够运行当前最大的671B的模型,这样可以适用于各种场景的使用。

陈超(主持):在过去的18个月里,基础设施融资更加开始注重PUE、利用率和回本周期,作为投资人我想问一个资本关心的问题,我们的VC将如何为算力资产类公司做估值与退出路径的设计?

庄宁:我觉得过去基本逻辑并没有太大的问题,如果从投资人的角度来讲看一个企业的本质还是要看回报。本质是这样子的,那有哪些表象或者哪些指征呢?从算力这个行业来讲,第一个可能要关注客户情况,客户的规模、客户的成长、客户的黏性,这个可能算力来讲是第一个要关注的。

第二个目前的算力总体来讲同质化比较严重,但是未来我觉得可能会逐渐地分化,体现在对于模型、Agent支持的程度,所以投资人在投资算力的时候,需要关注这一个层面。

其他我觉得之前的几个基本逻辑,回报率、周期、利润率可能也没有问题,但是还有一个是对于回报率方面,往往来讲在当前算力行业都还在摸索自己的商业模式包括技术路径,所以我觉得在早期内希望有短期过高的回报可能不太现实。

栾小凡:这个问题我不是特别专业,因为我们是一家做软件的公司。其实关于这个问题我更多想分享一个看法,我觉得第一个方面,算力可能在接下来的时间内也会达到瓶颈。因为大家都知道整个行业的发展是要么从硬件开始,要么是从应用开始,这一波的硬件迭代是因为整个应用的范式发生了变化,到目前为止我认为这波很快速的变化周期基本上达到了所谓的瓶颈或者是达到了增长的周期,接下来下一个突变是需要时间的,所以大家并不需要过度地担心算力在未来几年里贬值的问题。

我觉得真正需要关心的是我们到底做出了怎么样的护城河,来提升算力使用的效率?这里面有很多需要考虑的问题,包括集群规模变大之后怎么解决硬件本身的故障率问题,包括网络问题,以及我们现在看到很明显的以DeepSeek为代表的稀疏模型,随着部署的规模变大,能够怎样加速硬件使用的问题等。

但是我如果作为投资人的话,我会问所有的投资公司一个问题,你的Scaling Factor在哪里,给你这些硬件你到底能够做出和其他的竞争对手怎么样一些不一样的事情。

陈超(主持):下一个问题,在大型生成式AI把算力、存储和网络性能推荐极致后,我们追求的是每秒、每瓦、每元将成为新的综合指标。想请各位嘉宾分别谈一下在不牺牲总体TOC的前提下,下一代算力集群应该如何重新定义这一基准,哪些环节更需要行业共建标准?

艾智远:说实话我也不是特别清楚这个指标具体是怎么定出来,但是我可以提一个可能性。前两年最大的算力建设点是做大模型训练,训练最大的性能要求是来自算力卡,所以这个时候就有功耗、算力成本以及价格。

这两年有比较大的风向转变,第一是从训练的算力集群建设转到推理集群建设,去年就是一个转折点,今年DeepSeek就带来了另一个转折点。

当推理变成很重要的事情,这个时候所需要的算力级别整体是会增大的,因为在训练层面上的玩家并没有那么多。

2023年的时候有好几十家在做大模型训练,到现在为止可能留下来就几家,但是做训练的建设成本非常高。当推理建设开始建设的时候,这个时候就不只是GPU本身了。因为在大型的算力集群内,除了有GPU本身还有像内存、存储、网络,他们在推理层面上都有很大的帮助。

比如说可以通过以存换算,把之前计算的结果进行缓存下来,可以带来10倍的成本降低,这个时候算力成本就会大幅度地下降;同时如果存储上来了,就需要用更高的带宽甚至更高的网络,比如现在的IB网络大概是400G的网络,有没有可能做到800G甚至更高的网络?

又比如英伟达目前限了NVLink卡间带宽,我还见过GPU卡要做光互联的可能性存在,所以从这个层面上,我们要做的事情应该是整个系统层面或者架构层面的完整优化,最终考验的不是纯粹的GPU的算力成本,还是在于存储+GPU+内存等的成本。

第二是在整个推理过程中,模型也会存在很多的变化性,比如说像671这次为什么出现了FP8精度、FP16精度、Q4量化精度等等相关,以及我们在应用层面上当应用真的要大范围爆发的时候,不只是会卡在模型推理的本身,也会卡在小凡总讲的向量数据库的逻辑请求里面。

因为需要从大量的库里面找到文本信息本身,以及送到上层。在这一过程中,GPU的利用率大概是什么样的量级,以及这些数据中间结果存储在磁盘的过程中应该怎么调用,以及Agent在调用过程中怎么能够保证Agent每个吐字速度超过现在的速度,比如说我真的要一秒钟吐一百个Token这个事情该怎么做等,都是我们需要考虑的问题。所以我觉得新的标准一定是当前模型推理过程中应用整体来决定的。

对于整个生态来讲标准也很关键,包括大家讲应用本身,我们现在也在做各种各样的国产化对接。原本在英特尔做得比较好的指令集,可能到国产CPU上面发现指令集失效了,可能还要做多NUMA并行、各种各样的处理。

GPU层面也是,我们有CUDA兼容,有非CUDA兼容。但是要做一套真正能对客户进行服务的硬件的情况下,必须要在上层包括通信层、存储层、计算层以及各种各样的应用接口层都要达到标准化,所以我觉得这个生态不是相互内卷和竞争的生态,应该是多家合作来共谋更开源、更开放、更标准的逻辑生态,这样才有助于整个行业在大模型推理或者大模型落地过程中的快速发展。

陈超(主持):最后一个问题请教各位嘉宾,我们展望未来,如果把时间轴拉到未来的5-10年,各位认为数据中心最有可能引爆的一项底层技术革新是什么?是Chiplet的光互联,还是存算一体、存算融合,还是面向Agent的新型数据库,亦或者其他?请给出一个最乐观和最悲观的预测,并说明贵公司当前的技术与资本储备如何对冲风险押注机会。

栾小凡:因为我们是一家做数据库的公司,在过去我们看到最大的挑战是数据和算力之间的不匹配的挑战,不匹配指的很多方面。我们在过去看到的是数据体量远远大于我们能够提供的算力,包括在成本上面也是如此。因此面对90%以上体量的非结构化数据,其实我们并没有足够多、成本足够合适的算力帮助用户挖掘这里面的价值。

第二个方面,今天我们的存储性能、网络性能和我们能够提供的算力并不匹配,在这么多的数据情况之下,我们的算力是非常有限的。怎么样通过调度的手段,包括近存储的计算降低带宽和IOPS(Input/Output Operations Per Second)之间的GAP,这个是我们非常关注的挑战。

回到刚才主持人的问题,我们希望在未来能够出现的其实是硬件层面上的迭代,无论是在存储上还是在网络层面上,能够降低算力和数据之间的能力不匹配。如果有一天能够做到这样的点,充分利用我们整个的资源调度,可能就像以10倍甚至更低的成本优化,去把更多的非结构化数据转化成大家能够理解、能够由大模型调用的数据结构,未来可以做更多的应用。

庄宁:从做算力的角度来讲,我最希望5-10年能够真正实现算力调度。因为我们现在在讲算力调度更多的是算力卡的资源简单分配,不是实现真正的算力角度。我希望能够在5-10年真正实现算力调度,是指支持多元算力资源,根据不同的业务负载、数据流量等因素,实现算力资源的动态调配和优化,无需过多的人工干预。只有这样的话才能够把整个算力的价格降低下来。

俞康:从我们的角度,我只是有一点担忧数据增长太快了,我们存储行业需要快速反应才能应对挑战。我刚才提到30、40、50T(的硬盘),甚至还有客户问我们要有没有100T容量的产品,所以这对我们是一个非常大的挑战。

技术上的储备是为了解决将来的问题。强调一下我刚才提到的几点,一是HAMR技术能够解决数据中心对于海量数据爆炸的增长需求,另外就是双磁臂的技术可以对并发性的应用、特别是AI大模型的需求提供非常好的支撑。

NVMe可以把架构做得更简洁,让存储兼容性更好,性能更高,为我们的人工智能的发展保驾护航。所以希捷希望不断地做技术更新,为我们行业和用户提供更多的价值。

艾智远:从我们看到的情况,整个算力的建设上个时代是以虚拟化为主,但是在这个时代最大的问题就是大模型推理过程中或者整个AI应用环节算力成本过高,但整个软件栈没有完全朝着整个AI算力的方向发展,所以我认为未来5-10年很重要的事情就是做软件层的整体优化。

DeepSeek大家看到的是2月份很火,整个MOE的架构,智能化很强。但是大家忽略的是DeepSeek团队在整个Infra层面的投入也很强,业界里面戏称DeepSeek在教英伟达怎么写代码,因为他可以把整个带宽跑到很高。

我们这边在做整体设计的过程中也发现:CPU进行计算的过程中,如果我们用了比较好的指令集,可以把CPU的性能提高4倍以上,比如说可以达到40 Tflops的计算能力,整个提升空间很大。

我们在应用软件的开发过程中,大量的软件架构没有完全发挥我们硬件本身的性能本质。所以在未来的5-10年之内如果AI应用是会在广泛爆发的过程中,我们实际上可以在整个系统层面或者说数据中心的全系统层面上做软件的优化提高,硬件资源还有很大的利用空间。

我们看到很多国产化卡性能,如果优化得比较好的话,也不会亚于和英伟达或者英特尔,这很关键。因为软件所定义的整个硬件的发展将有利于我们整体算力基础设施的铺设,这也是英伟达GTC2025推Dynamo开源推理框架的原因,现在单卡已经到2纳米了,算力还能得到多大的整体提升呢?但是整个集群层面上的提升有很大的空间可以做的,因为利用率远比我们想象的要低。


来源:网易

举报本楼

本帖有 1 个回帖,您需要登录后才能浏览 登录 | 注册
您需要登录后才可以回帖 登录 | 注册 |

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图  

GMT+8, 2025-5-13 14:06 , Processed in 0.431153 second(s), 16 queries , Gzip On.

Copyright © 1999-2023 C114 All Rights Reserved

Discuz Licensed

回顶部