Kimodo

NVIDIA 开源运动学动作扩散模型 — 通过文本生成可控的3D人体与机器人动作

700hrs 动捕数据人体 + 机器人文本转动作开源

什么是 Kimodo？

Kimodo（Kinematic Motion Diffusion）是由 NVIDIA Research 开发的开源3D动作生成模型。基于创新的两阶段 Transformer 扩散架构，Kimodo 能够根据简单的文本描述或精确的运动学约束，生成高质量的人体和机器人动作 — 仅需单张 GPU 上2到5秒即可完成。

Kimodo 基于 Bones Rigplay 数据集中超过700小时的专业光学动作捕捉数据训练，是目前规模最大的可控动作扩散模型 — 训练数据量约为 MDM 或 MotionDiffuse 等先前模型的25倍。其两阶段去噪器将根轨迹预测与身体动作生成分离，有效减少了困扰其他动作生成方法的悬浮和脚部滑动等常见伪影。

Kimodo 支持三种骨骼格式：NVIDIA 的 SOMA 参数化人体模型、Unitree G1 仿人机器人以及广泛使用的 SMPL-X 模型。所有 SOMA 和 G1 模型均在 NVIDIA 开放模型许可证下发布，可免费用于学术研究和商业应用。无论您是构建动画流水线、训练机器人策略，还是开发交互式角色原型，Kimodo 都能以文本提示的速度提供生产级动作质量。

Kimodo 的能力

Kimodo 文本转动作

从自然语言提示生成高质量的3D人体动作。描述如「一个人向前走然后开始跳跃」的动作，Kimodo 便能在几秒内将其栩栩如生地呈现。在时间轴上串联多个文本提示，即可创作复杂的多阶段动作序列，各动作之间自动实现平滑过渡。

人体 + 机器人骨骼

Kimodo 支持三种骨骼格式：用于生产环境的 NVIDIA SOMA 参数化人体模型、用于机器人应用的 Unitree G1 仿人机器人骨骼，以及与 AMASS 等现有动作捕捉和动画流水线完全兼容的 SMPL-X。

Kimodo 运动学控制

通过全身关键帧、末端执行器位置与旋转、2D路径点和密集2D地面路径实现精细的空间与时间控制。Kimodo 在扩散去噪过程中直接在姿态空间应用所有约束，确保每次都能获得精确且物理合理的结果。

为什么选择 Kimodo？

前所未有的训练规模

Kimodo 基于700多小时的专业工作室动作捕捉数据训练 — 约为 MDM、MotionDiffuse 或 MoMask 等竞品模型的25倍。这一庞大的训练规模带来了更优秀的动作质量、更丰富的多样性，以及对新颖复杂文本提示更强的泛化能力。

原生可控性

不同于需要昂贵测试时优化的潜空间方法，Kimodo 直接在显式姿态空间中运作。包括关键帧、末端执行器、路径点和密集路径在内的运动学约束，在每个扩散步骤中原生应用，实现精准、可靠且无伪影的控制。

多骨骼支持

使用 SOMA 或 SMPL-X 人体模型为数字人角色生成动作，使用 Unitree G1 骨骼为仿人机器人生成动作 — 均来自 Kimodo 模型家族。支持导出为 NPZ、MuJoCo CSV 或 AMASS 格式，无缝集成到动画、仿真和机器人流水线中。

开源且商业友好

SOMA 和 G1 模型检查点在 NVIDIA 开放模型许可证下发布，允许学术研究和商业部署。免费的 HuggingFace Spaces 演示让任何人都能在浏览器中即时体验 Kimodo — 无需 GPU 或安装。

Kimodo 工作原理

从文本提示到3D动作，只需三步

第一步

描述您的动作

输入自然语言提示，例如「一个人向前走，捡起一个箱子，然后转身」。可选添加运动学约束，如关键帧姿态、末端执行器目标或2D地面路径，以实现对生成动作的精确空间控制。

第二步

扩散生成

Kimodo 的两阶段 Transformer 去噪器处理您的输入。根去噪器首先预测全局轨迹，然后身体去噪器生成详细的关节动作。整个过程在 RTX 3090 上仅需2至5秒。

第三步

导出与集成

下载生成的动作：NPZ 格式用于通用场景，MuJoCo CSV 用于 ProtoMotions 等工具的机器人仿真，AMASS 格式用于兼容现有动画和研究流水线。使用交互式时间轴 UI 进行调整、迭代并导出多个变体。

Kimodo 实际效果展示

Kimodo 交互式演示提供直观的时间轴界面，用于通过文本提示和运动学约束创作复杂动作。实时3D可视化预览生成结果，支持多样本并排比较、SOMA 和 G1 角色切换，并可直接从浏览器导出动作。

NVIDIA 面向物理AI和机器人的运动AI生态系统

ProtoMotions

GPU 加速仿真与学习框架，用于使用 Kimodo 生成的动作数据训练物理仿真仿人机器人

SOMA 人体模型

作为 Kimodo 主要骨骼表示的统一参数化人体模型

BONES-SEED 数据集

SOMA 和 G1 格式的大规模公开人体动作捕捉数据集，用于可复现研究

GEM

互补的动作扩散模型，可从单目视频输入重建3D动作

GEAR SONIC

仿人行为基础模型，使用 Kimodo 动作作为演示数据来训练物理机器人策略

SOMA Retargeter

基于 Newton 的物理重定向工具，用于将 SOMA 人体动作转换到 Unitree G1 机器人骨骼

常见问题

引用

@article{Kimodo2026,
  title={Kimodo: Scaling Controllable Human Motion Generation},
  author={Rempe, Davis and Petrovich, Mathis and Yuan, Ye and Zhang, Haotian and Peng, Xue Bin and Jiang, Yifeng and Wang, Tingwu and Iqbal, Umar and Minor, David and de Ruyter, Michael and Li, Jiefeng and Tessler, Chen and Lim, Edy and Jeong, Eugene and Wu, Sam and Hassani, Ehsan and Huang, Michael and Yu, Jin-Bey and Chung, Chaeyeon and Song, Lina and Dionne, Olivier and Kautz, Jan and Yuen, Simon and Fidler, Sanja},
  journal={arXiv},
  year={2026}
}