那很自然地就会思考:视频生成模型已经初步学会了通用的物理规律和人类行为,为什么不把这些知识「蒸馏」给 3D 人体动作生成模型呢?
论文链接:https://arxiv.org/abs/2510.26794
项目主页:https://linjing7.github.io/vimogen/
ViGen-to-MoGen 的三大支柱
来自南洋理工大学、商汤科技、清华大学、香港中文大学和英伟达的研究人员提出了题为《The Quest for Generalizable Motion Generation: Data, Model, and Evaluation》的最新研究成果。这项工作从数据、模型、评估三个维度重新定义了通向通用动作生成的路径。