只需一步,快速开始
短信验证,便捷登录
军衔等级:
三级军士长
逐步开源高性能KVCache多级缓存Mooncake Store的实现,同时针对各类推理引擎和底层存储/传输资源进行兼容。 其中传输引擎Transfer Engine现在已经在GitHub全球开源。
通过与清华大学MADSys实验室紧密合作,我们共同打造了分离式大模型推理架构Mooncake,实现推理资源的极致优化。 Mooncake不仅提升了Kimi的用户体验,降低了成本,还为处理长文本和高并发需求提供了有效的解决方案。 我们相信,通过与产学研机构开源合作,可以推动整个行业向更高效的推理平台方向发展。
该系统基于以KVCache为中心的PD分离和以存换算架构,大幅度提升了推理吞吐。
在最大化整体有效吞吐量和满足与延迟相关的服务级别目标 (SLO) 要求之间取得平衡
目前这套系统承载了Kimi线上80%以上的流量。
AISoft、阿里云、华为存储、面壁智能、趋境科技等。
欢迎更多企业和研究机构加入Mooncake项目共建,共同探索更加高效和先进的模型推理系统架构创新,让基于大模型技术的AI助手等产品,持续惠及更广泛人群。
举报本楼
发表回复 回帖后跳转到最后一页
手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图
GMT+8, 2024-12-6 16:54 , Processed in 0.163168 second(s), 16 queries , Gzip On.
Copyright © 1999-2023 C114 All Rights Reserved
Discuz Licensed