henry 发自 凹非寺 量子位 | 公众号 QbitAI
小模型虽然单次推理成本低,但当考虑大规模部署时,规模经济(大量使用大模型分摊成本)可能比小模型的节省更重要。
随着推理调度优化和大型推理系统模块化的发展,单体计算集群的灵活性大幅提升,同时基础设施搭建成本因技术进步持续下降。
结合不同规模和能力的多种语言模型,与查询复杂度级别相匹配,为小模型的采用提供自然的集成路径。