能在显著降低推理成本的同时,保持甚至提升模型性能。
受计算资源限制,未在更大、更多样化的开源大语言模型上验证MHA2MLA;且由于Deepseek未开源MLA的张量并行推理框架,难以探索大于7B的模型。