从2024年5月发布DeepSeek-V2,到同年12月发布V3,梁文峰团队用了7个月,而从V3到2025年1月发布的R1,模型的更新时间缩短到不足一个月。近期,梁文锋还率领团队更新了一篇技术论文,对外展示了DeepSeek在新架构NSA(原生稀疏注意力)上的思考。