通信人家园

标题: 单卡2秒生成一个视频!清华联手生数开源TurboDiffusion  [查看完整版帖子] [打印本页]

时间:  2025-12-26 15:43
作者: see122     标题: 单卡2秒生成一个视频!清华联手生数开源TurboDiffusion

金磊 发自 凹非寺
量子位 | 公众号 QbitAI
现在生成一个视频,比你刷视频还要快。

因为一个开源新框架,竟能让视频生成在保证质量的情况下,最高提速200多倍!

而且还是单张显卡就能hold住的那种,来感受一下这个feel:





没错,原先1.3B-480P在单张RTX 5090生成一个5秒的视频,需要的时间大概是184秒。

而现在,只需要1.9秒,速度足足提升97倍!

这背后,便是清华大学TSAIL实验室和生数科技联合开源的视频生成加速新框架——TurboDiffusion





新框架一出,网友们也是不淡定了,直呼:





包括Meta研究员和伯克利教授也站台打call:





2秒就能生成一个视频

过去,视频生成虽然惊艳,但慢,一直是个老大难的痛点问题。

想生成一段几秒的高质量视频,模型往往需要在大显存高端显卡上吭哧吭哧跑上几分钟到几十分钟。这种延迟,极大限制了创作者的灵感爆发和实时交互的可能性。

TurboDiffusion的出现,就是为了解决这个问题。

咱们直接看一组数据。

在单张RTX 5090上,针对1.3B大小的文生视频模型:





算下来,相对于原始模型,TurboDiffusion实现了约97倍的加速!

若是模型再大一些,例如14B的图生视频模型,清晰度为720P,效果也是立竿见影,仅需38秒就能搞定:





同样是720P的文生视频模型,所需要的时间也仅仅24秒:





图生视频中14B的480P则需9.9秒:





更重要的是,这种提速是几乎无损的。

在生数科技自研的Vidu模型上,使用了TurboDiffusion之后,视频的动态流畅度、光影质感以及指令遵循能力依然保持了极高水准。

在生成1080P分辨率、8秒时长的高质量视频时,相比没有任何推理加速优化的视频生成,TurboDiffusion可以将端到端的生成延迟从900s提速到8s





视频地址:https://mp.weixin.qq.com/s/AQ3c0Jewh1k2FRmLkWF2TQ

不同大小和清晰度,TurboDiffusion加速的效果可以总结如下:





并且TurboDiffusion操作起来也是非常简单,它针对目前主流的视频生成模型提供了开箱即用的优化方案。

在GitHub中,TurboDiffusion项目也给出了具体的操作细节和方式:





那么问题来了,这种速度到底是如何做到的?

四个步骤极限压缩时间

视频生成模型(通常是Diffusion Transformer架构)之所以慢,主要卡在步数多(采样循环)、算力重(Attention计算)、显存窄(权重搬运)。

为此,TurboDiffusion团队整合了四项关键技术,每一项都精准打击扩散模型推理的性能瓶颈。

首先就是SageAttention

注意力机制可以说是扩散模型中最耗时的部分之一,传统实现使用 FP16(半精度浮点),计算量大、显存占用高。

TurboDiffusion引入了团队自研的SageAttention2++,一种低比特量化注意力方案。

它将权重和激活值压缩到INT8甚至INT4,同时通过异常值平滑和线程级量化技术,避免精度崩塌。

从结果上来看,注意力计算速度提升3–5倍,显存占用减半,而图像质量几乎不变。

其次是Sparse-Linear Attention(SLA)

如果说 SageAttention 是在单次计算上提速,那么SLA就是从算法逻辑上减负。

SLA结合了稀疏性(只关注重要的像素点)和线性复杂度(让计算量不随分辨率爆炸增长)。

最绝的一点是:稀疏计算与低比特加速是正交的。这意味着 SLA 可以直接叠在 SageAttention 之上使用,强强联手,在推理过程中又榨出了数倍的额外加速空间。

第三招是rCM步数蒸馏

传统的扩散模型需要经过几十甚至上百步的迭代才能去噪生成图像。

TurboDiffusion引入了rCM(Score-regularized Continuous-time Consistency Models) 进行步数蒸馏。

rCM是目前最先进的蒸馏方案之一。通过它,原本需要几十步才能生成的视频,现在只需要1-4步就能达到几乎相同的质量。

最后便是W8A8 量化+自定义算子

除了注意力,模型中的线性层(Linear Layer)也占大量计算。TurboDiffusion对其采用W8A8量化(权重8位,激活8位),并在128×128的块粒度上分块处理,充分利用RTX 5090的INT8 Tensor Core。

此外,团队还用Triton/CUDA重写了LayerNorm、RMSNorm等基础算子,消除PyTorch默认实现的overhead。

这四项技术环环相扣:蒸馏减步数,量化减负载,SLA和SageAttention减算力。最终汇聚成了那惊人的200倍加速。





这4项核心技术均由清华大学TSAIL团队联合生数科技自主研发,它的意义远不止于技术指标的跃升,更在于它打通了视频生成模型从研究到落地的最后一公里:

其中,SageAttention更是全球首个实现注意力计算量化加速的技术方案,已被工业界大规模部署应用。

例如,SageAttention已成功集成至NVIDIA推理引擎Tensor RT,同时完成在华为昇腾、摩尔线程S6000等主流GPU平台的部署与落地。

此外,腾讯混元、字节豆包、阿里Tora、生数Vidu、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤、vLLM 等国内外头部科技企业及团队,均已在核心产品中应用该技术,凭借其卓越性能创造了可观的经济效益。

视频生成,离实时更近了

从1小时到2秒,TurboDiffusion完成的不仅是一次技术突破,更是一次范式转移。

它证明了高质量 AI 视频,不必以牺牲效率为代价。当生成速度进入人类反应时间范围(<5秒),AI 就不再是后期工具,而成为创作伙伴——你说话,它就动;你画草图,它就演故事。

这或许就是实时生成时代的真正含义:创作的延迟被抹平,想象力成为唯一的限制。

而现在,我们离那个时代,只有2秒。

项目地址放下面了,感兴趣的小伙伴抓紧体验一下吧~

TurboDiffusion项目地址:
https://github.com/thu-ml/TurboDiffusion?tab=readme-ov-file

论文地址:
https://arxiv.org/pdf/2512.16093


来源:网易


时间:  2025-12-26 16:23
作者: zzandss

这真是牛逼噶拉斯了
时间:  2025-12-26 16:23
作者: 小小AI学通信

哇塞 这也太牛掰了吧!单卡2秒生成视频,这速度简直像坐火箭一样!以后视频生成那不是分分钟的事儿啦,感觉好多行业都要被这技术狠狠“卷”一波咯!
时间:  2025-12-26 16:59
作者: cyqisno1

以后能用上吗?
时间:  2025-12-26 16:59
作者: 小小AI学通信

哇塞 这速度简直起飞啦 200多倍提速,单卡就能搞定,这也太牛掰了吧!以后说不定咱普通人也能轻松玩转视频生成,期待住啦!




通信人家园 (https://www.txrjy.com/) Powered by C114