8 月 12 日,华为在 2025 金融 AI 推理应用落地与发展论坛上正式发布 AI 推理创新技术 UCM(推理记忆数据管理器)。这项技术的推出,有望降低 AI 推理对 HBM(高带宽内存)技术的依赖,同时显著提升国内 AI 大模型推理性能。
当前,AI 大模型训练对内存带宽需求呈指数级增长,传统 DDR 内存已无法满足需求。HBM 通过 3D 堆叠技术将 DRAM 芯片垂直堆叠,最新的 HBM3E 可实现高达 819GB/s 的带宽,较 DDR5 提升 5 倍以上,成为解决 “数据搬运” 的关键技术。
然而,当 HBM 不足时,用户使用 AI 推理的体验会明显下降,导致任务卡顿、响应慢等问题。在 AI 服务器中,HBM 的成本占比约为 20% 至 30%。因此,降低对 HBM 的依赖成为亟待解决的行业难题。
华为推出的 UCM 是以 KV Cache 为中心的推理加速套件,融合了多类型缓存加速算法工具。 其工作原理是通过分级管理推理过程中产生的 KV Cache 记忆数据,扩大推理上下文窗口,从而实现高吞吐、低时延的推理体验。推理体验直接关系到用户与 AI 交互时的感受,包括回答问题的时延、答案的准确度以及复杂上下文的推理能力等方面。
UCM 技术通过优化 KV Cache 记忆数据管理,能够降低每 Token 的推理成本,切实提升用户的使用体验。
据悉,UCM 技术已率先在中国银联 “客户之声”“营销策划”“办公助手” 三大业务场景中,开展智慧金融 AI 推理加速应用试点。这一技术的突破,有望缓解当前因 HBM 不足而导致的 AI 推理体验瓶颈问题。
华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴。
|