查看: 636|回复: 0

从过拟合到通用！ViMoGen开启3D人体动作生成新纪元 [复制链接]

ttxx

军衔等级：

上校

注册：2010-4-28 点赞数

20

电梯直达

1^# 大中小

发表于 2026-1-8 15:38:27 |只看该作者 |倒序浏览

随着 AIGC（Artificial Intelligence Generated Content）的爆发，我们已经习惯了像 Sora 或 Wan 这样的视频生成模型能够理解「一只宇航员在火星后空翻」这样天马行空的指令。然而，3D 人体动作生成（3D MoGen）领域却稍显滞后。

现有的模型在标准数据集上表现良好，但在泛化能力上仍存在明显瓶颈。一旦用户输入训练集中未见过的复杂交互或罕见动作，生成的动作往往会缺乏自然性、崩坏或退化为简单的平均姿态，这严重限制了其在现实场景和交互系统中的应用。

那很自然地就会思考：视频生成模型已经初步学会了通用的物理规律和人类行为，为什么不把这些知识「蒸馏」给 3D 人体动作生成模型呢？

论文链接：https://arxiv.org/abs/2510.26794
项目主页：https://linjing7.github.io/vimogen/

ViGen-to-MoGen 的三大支柱

来自南洋理工大学、商汤科技、清华大学、香港中文大学和英伟达的研究人员提出了题为《The Quest for Generalizable Motion Generation: Data, Model, and Evaluation》的最新研究成果。这项工作从数据、模型、评估三个维度重新定义了通向通用动作生成的路径。

<ol>

数据 ViMoGen-228K:结合了从 30 个 MoCap 数据集中筛选的高精度数据，海量互联网视频与由视频模型（Video Gen）合成视频中提取的动作数据，包含了大量罕见、复杂的交互动作，突破了传统数据棚采集的物理限制。

模型 ViMoGen:采用Text-to-Motion (T2M) 与 Motion-to-Motion (M2M)双分支架构。通过门控机制，将视频生成模型的语义先验与 MoCap 的物理先验完美统一。

评估 MBench: 首个面向「泛化性」的评测基准。从动作质量、文本忠实度、泛化能力三大维度（细分 9 项指标）对模型进行全方面测评，是目前最全面的动作生成评测方式。

</ol>数据 ViMoGen-228K —— 规模与多样性的双重飞跃

传统动作数据集（如 AMASS）虽然精准但语义单一。ViMoGen 引入了 ViMoGen-228K 数据集，包含约 22.8 万条高质量动作样本。

多模态覆盖，包含文本–动作、文本–视频–动作多模态三元组。

多来源实现泛化能力提升：

对来自 30 个公开高质量的光学动作捕捉数据集进行了筛选和重标注。
从网络视频提取动作序列与语义标签。
利用视频生成（ViGen）模型生成了在真实动作捕捉中极难获取的长尾动作，填补了语义空白。

模型 ViMoGen —— 多源先验知识的深度表征与协同优化探索

ViMoGen 模型巧妙地通过门控机制控制Text-to-Motion (T2M)分支与Motion-to-Motion (M2M)双分支，同时利用 MoCap 数据的精准先验和 ViGen 模型的广泛语义先验。该架构模型不仅在传统动作生成测评上取得较好的分数，同时也通过文中提出的 MBench 测评基准，体现了它在泛化性上的卓越表现。

测评 MBench —— 多维分层评测体系

传统的 FID（Frechet Inception Distance）等指标只能衡量生成动作与特定动作集分布的相似度，却无法体现模型在处理复杂、罕见指令时的真实泛化能力。MBench 将评测拆解为相互关联的三个层面，并细化为 9 项具体的量化指标。

动作质量 (Motion Quality)关注动作的合理性。通过计算与地面物理接触、穿模情况以及脚步抖动和平滑度，评判生成动作的动作的物理可实现性。

指令忠实度 (Motion-Condition Consistency)利用多模态大模型评估生成动作与复杂文本描述的一致性。例如，模型是否准确还原了文本中提到的方位（“向左后方倒下”）或特定的交互逻辑。

开放世界泛化力 (Motion Generalizability)设计了一系列 Out-of-Distribution (OOD) 测试案例，涵盖了极端动作、长尾语义以及复合指令，专门考验模型在未见过场景下的稳定性。

赋能具身智能，构建 Real-to-Sim 的高质量动作桥梁

在当前的人形机器人控制研究中（如 [arXiv:2505.03729] ），研究者通常依赖海量的 SMPL 参考轨迹（Reference Motions）来训练高鲁棒性的控制策略（Policy）。然而，传统数据的匮乏严重限制了机器人动作的演化。

传统的机器人训练往往局限于几套标准的行走动作。而 ViMoGen-228k 能够带来大量长尾、边缘场景（Corner Cases）高质量动作，同时 ViMoGen 凭借强大的泛化能力，能够批量产出一些特殊需求的动作数据。这些数据能够让具身智能体在虚拟训练阶段就完成了对复杂动态的预演，使其在现实部署中具备更强的抗干扰能力。

同时 MBench 针对动作质量的一系列评估，能够为下游的 Real-to-Sim 过程做初步筛选，从而排除了可能导致机器人频繁跌倒或关节自锁的无效动作。

结果展示

空翻

指令：一个人俯身蹲低，双腿积蓄力量，随后蹬地猛然跃起，下巴紧贴胸口。身体蜷缩成一个紧密的球状，在空中优雅地翻转。随着空翻动作的完成，他舒展双腿，膝盖微屈平稳着陆，双臂向外伸展以保持平衡。

多球杂耍

指令：一个人双脚与肩同宽站立，目光紧盯着空中的彩色球。凭借熟练的手腕甩动，他们将每个球依次抛向空中，划出流畅的弧线，双手以协调一致的节奏交替动作。球不断升起又落下，形成连续的循环，杂耍者的动作流畅而精准，在整个表演过程中始终保持着完美的节奏与平衡。

引体向上

指令：一个人在单杠上进行一组标准的引体向上。从双臂完全伸直的悬垂状态开始，利用背部力量将身体垂直向上拉起，直到下巴超过单杠。

空手道

指令：一位武术家在前进的同时，执行一套动态的空手道组合动作。

推箱子

指令：一个人身体前倾，双手抵住一个巨大的重型箱子，在保持接触的同时缓慢向前迈步。

作者介绍

本文由南洋理工大学、商汤科技、清华大学、香港中文大学及英伟达的顶尖学者合作完成。

林靖、王睿思、鲁俊喆为共同第一作者。林靖是南洋理工大学博士生，研究大模型驱动的 3D 感知、生成与理解；王睿思为商汤研究员，兴趣方向在高性能计算与大模型空间智能；鲁俊喆是清华大学硕士，研究生成式模型和 3D 计算机视觉。

来源：网易

本主题由版主或管理员于 2026-1-8 15:51 审核通过

0 举报本楼

返回列表

版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图

GMT+8, 2026-2-25 08:22 , Processed in 0.202519 second(s), 16 queries , Gzip On.

Discuz Licensed

		自动登录	找回密码
密码			注册