查看: 238|回复: 2

Sora2还在5秒打转，字节AI生视频已经4分钟“起飞” [复制链接]

tayun

军衔等级：

上校

注册：2015-11-14 点赞数

14

电梯直达

1^# 大中小

发表于 2025-10-6 14:36:35 |只看该作者 |倒序浏览

鹭羽发自凹非寺
量子位 | 公众号 QbitAI

从5秒到4分钟，Sora2也做不到的分钟级长视频生成，字节做到了！

先来看一个前方潜水员拍摄的“真实”海底世界Vlog：

视频链接：https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

华生，有发现么？不同于一般的AI生成视频，只有短短几秒钟……这个片子全程1分40秒，都是“水分”、都是AI

这就是字节和UCLA联合提出的新方法——Self-Forcing++，无需更换模型架构或重新收集长视频数据集，就能轻松生成分钟级长视频，也不会后期画质突然变糊或卡住。

通过利用教师知识和自生成视频片段指导自回归生成，最长生成视频可达4分15秒，而且高质量、还开源。

话不多说，再看几个视频效果尝尝鲜。

长达3分钟的无人机视角下的海岸线，be like：

视频链接：https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

时长拉到极致，4分15秒跟随大象的脚步纵览草原美景。

视频链接：https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

而相同时长下，此前的长视频生成SOTASkyReels做出的效果是酱紫的：（重生之我成为一只蚂蚁）

视频链接：https://mp.weixin.qq.com/s/DL8JfT36xwbcs8FnKGttdQ

Self-Forcing++在短时长上继承了Self-Forcing的高质量画面效果，长时长生成也能达成性能指标All kill，视觉稳定性大幅领先CausVid等方法。

或许，AI电影时代离我们已不再遥远……下面来康康更多详细内容。

从5秒到4分15秒

先一起来思考下这个问题：为啥现在的AI视频质量这么高，但还是很容易被人捉虫AI生成？

其实bug就出自视频长度。

无论是Sora2、字节Wan，还是腾讯混元、谷歌Veo，视频内容再真假难辨，长度却都只有5到10秒。

即使勉勉强强做出长视频，也是只有前几秒能看，后面画面通通崩坏。

原因无他，传统扩散视频生成模型依赖Transformer结构，即使改用双向教师模型将知识蒸馏给学生模型，由于模型本身无法生成长视频的限制，还是会持续不断积累误差。

于是针对这一问题，字节提出Self-Forcing++方法抑制后期质量下降，不再依赖长视频教师模型训练，而是让模型在自己的错误中成长。

首先是视频长度上，分别从噪声初始化、蒸馏方式、缓存机制三方面优化训练过程：

反向噪声初始化：让学生模型生成远超5秒（实验用100秒）的干净帧序列，再按扩散噪声调度向序列中重新注入噪声。
扩展分布匹配蒸馏：在帧序列生成后，从中随机抽取5秒连续窗口，计算学生与教师模型在窗口内的分布差异（KL散度），然后通过最小化该差异完成训练。
滚动KV缓存训练：在训练与推理阶段均采用滚动KV缓存，训练时用该缓存生成远超教师监督时长的序列，用于扩展DMD计算。

简单来说，就是让LLM在犯错-修正-再犯错的循环中，逐渐学会长时间的稳定生成。

另外，由于自回归模型使用滑动窗口或稀疏注意力生成长序列时，容易出现长时记忆丢失的情况，还需要引入组相对策略优化（GRPO）改善视频平滑性。

通过计算每一步的重要性权重，结合当前自回归生成的对数概率总和，衡量生成策略的合理性，再将相邻帧光流的相对大小作为运动连续性代理指标，引导模型优化，最终可有效减少画面突变异常。

研究人员同时发现，现有长视频评估所使用的VBench基准并不完全准确，一些过亮的坏视频也会被误判为好。

为此他们将Gemini-2.5-Pro作为评委，让模型按照过曝光、误差积累等维度以0-100分评分，可以更为精准地衡量视觉稳定性（Visual Stability）。

这一点在后续的实验结果中也得以验证。

兼顾时长和质量

研究人员主要设计了两类场景评估，分别对比该方法与基准模型（包括自回归模型与双向模型）在短时长视频质量和长时长生成上的效果。

其中短时长场景（5s）仍然采用VBench基准，根据946个提示词从16个维度评估生成质量。

结果显示，Self-Forcing++在语义得分（80.37）和总得分（83.11）上均超过NOVA、SkyReels-V2、CausVid等模型，只略低于Wan2.1的总得分84.67。

说明Self-Forcing++虽并未专门针对短视频进行训练，但其在短时长场景中仍能保持高视觉质量与语义一致性。

在50秒生成时，视觉稳定性得分为90.94，远超CausVid（40.47）和Self-Forcing（40.12），动态程度更是Self-Forcing得分的1.6倍，文本对齐得分（26.37）也高于多数基准，证明其在中长时长场景的稳定性。

而在75秒到100秒生成中，文本对齐得分可达26.04、动态程度为54.12，相比CausVid分别提升6.67%和56.4%，相比Self-Forcing则提升18.36%和104.9%。

视觉稳定性得分（84.22）为Self-Forcing（32.03）的2.6倍，且framewise质量（60.66）与基准模型相当，说明其在极长时长下仍能保持高保真度与一致性。

长视频生成通常存在的失效模式，如运动停滞、保真度退化，Self-Forcing++均未出现类似情况，视频全程保持连贯运动和稳定亮度及质量。

最终实验验证得出，Self-Forcing++可最长生成4分15秒的视频，比原先的5秒提升近50倍，且在保真度和一致性上优于基线方法。

参考链接：
[1]https://self-forcing-plus-plus.github.io/
[2]https://arxiv.org/abs/2510.02283

来源：网易

本主题由版主或管理员于 2025-10-6 14:49 审核通过

0 举报本楼

本帖有 2 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2025-10-7 00:18 , Processed in 0.216879 second(s), 18 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册

Sora2还在5秒打转，字节AI生视频已经4分钟“起飞” [复制链接]

浏览过的帖子

浏览过的版块