查看: 4015|回复: 1

Sora没做到的，LongVie框架给解决了，超长视频生成SOTA [复制链接]

ttxx

军衔等级：

上校

注册：2010-4-28 点赞数

20

电梯直达

1^# 大中小

发表于 2025-8-21 16:38:26 |只看该作者 |倒序浏览

从Sora的惊艳亮相到多款高性能开源模型的诞生，视频生成在过去两年迎来爆发式进步，已能生成几十秒的高质量短片。然而，要想生成时长超过 1 分钟、内容与运动可控、风格统一的超长视频，仍面临巨大挑战。

为此，上海人工智能实验室联合南京大学、复旦大学、南洋理工大学 S-Lab、英伟达等机构提出 LongVie 框架，系统性解决可控长视频生成中的核心难题。

项目主页：https://vchitect.github.io/LongVie-project/
视频：https://www.youtube.com/watch?v=SOiTfdGmGEY&t=1s
论文：https://arxiv.org/abs/2508.03694
Github：https://github.com/Vchitect/LongVie

难点剖析

直接利用当前的可控视频生成模型生成分钟级长视频时，通常会出现以下问题：

时序不一致：前后画面细节与内容不连贯，出现闪烁等现象。
视觉退化：随时长增长，出现颜色漂移、清晰度下降等问题。

解决时序不一致：两项关键策略

LongVie 从「控制信号」与「初始噪声」两条路径入手：

1. 控制信号全局归一化（Control Signals Global Normalization）

将控制信号在全片段范围内统一归一化，而非仅在单一片段内归一化，显著提升跨片段拼接时的一致性。

2.统一噪声初始化（Unified Noise Initialization）

各片段共享同一初始噪声，从源头对齐不同片段的生成分布，减少前后帧外观与细节漂移。

（下图展示了两项策略带来的前后一致性提升）

解决视觉退化：多模态精细控制

单一模态的控制难以在长时间下提供稳定而全面的约束，误差会随时间累积并引发画质下降。LongVie 融合密集控制信号（如深度图）与稀疏控制信号（如关键点），并引入退化感知训练策略，在更贴近长序列退化分布的条件下训练模型，使长视频生成在细节与稳定性上同时受益。

（下图给出了单一模态与多模态对比示例）

一图看懂 LongVie 框架

控制信号怎么融合更稳更强？团队把标准 ControlNet（a）和两种变体（b、c）都做了对比测试，结果显示变体（c）效果更好、训练更稳定，最终被采纳。

LongVie 能力展示

LongVie 支持多种长视频生成下游任务，包括但不限于：

视频编辑：对长视频进行一致性的内容修改与编辑。
风格迁移：对整段长视频执行统一且时序连贯的风格迁移。
Mesh-to-Video：从三维体素出发生成逼真的长视频。

（如下图为不同任务的效果示例）

LongVGenBench：首个可控超长视频评测基准

当前缺乏面向可控长视频生成的标准化评测。为此，作者团队提出 LongVGenBench—— 首个专为超长视频生成设计的基准数据集，包含 100 个时长超过 1 分钟的高分辨率视频，旨在推动该方向的系统研究与公平评测。

基于 LongVGenBench 的定量指标与用户主观测评显示，LongVie 在多项指标上优于现有方法，并获得最高用户偏好度，达到SOTA水平。（详见下表与用户研究结果）

来源：网易

本主题由版主或管理员于 2025-8-21 16:55 审核通过

0 举报本楼

本帖有 1 个回帖，您需要登录后才能浏览登录 | 注册

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2026-2-25 06:54 , Processed in 0.153787 second(s), 16 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册