传统 video dubbing 技术长期受限于其固有的 “口型僵局”,即仅能编辑嘴部区域,导致配音所传递的情感与人物的面部、肢体表达严重脱节,削弱了观众的沉浸感。现有新兴的音频驱动视频生成模型,在应对长视频序列时也暴露出身份漂移和片段过渡生硬等问题。为解决这些痛点,Infinitetalk 引入 “稀疏帧 video dubbing”。
这一新范式从根本上重新定义了 video dubbing,将其从简单的 “嘴部区域修复” 转变为 “以稀疏关键帧为引导的全身视频生成”。该模型不仅能够实现口型与配音的精准同步,更实现了面部表情、头部转动和肢体语言与音频所表达情感的自然对齐,消除长视频生成中的累积误差和突兀过渡。