Kimodo

Le modèle open source de diffusion cinématique de mouvement de NVIDIA — Générez des mouvements 3D contrôlables pour humains et robots à partir de texte

700hrs de MocapHumain + RobotTexte vers MouvementOpen Source

Essayer sur HuggingFace Voir sur GitHub

Qu'est-ce que Kimodo ?

Kimodo (Kinematic Motion Diffusion) est un modèle open source de génération de mouvement 3D développé par NVIDIA Research. Construit sur une architecture novatrice de diffusion par transformer en deux étapes, Kimodo génère des mouvements humains et robotiques de haute qualité à partir de simples descriptions textuelles ou de contraintes cinématiques précises — le tout en seulement 2 à 5 secondes sur un seul GPU.

Entraîné sur plus de 700 heures de données professionnelles de capture de mouvement optique issues du dataset Bones Rigplay, Kimodo représente le plus grand modèle contrôlable de diffusion de mouvement disponible aujourd'hui — soit environ 25 fois plus de données d'entraînement que les modèles antérieurs comme MDM ou MotionDiffuse. Son débruiteur en deux étapes sépare la prédiction de la trajectoire racine de la génération du mouvement corporel, minimisant efficacement les artefacts courants tels que la flottaison et le glissement des pieds qui affectent les autres approches de génération de mouvement.

Kimodo prend en charge trois formats de squelette : le modèle corporel humain paramétrique SOMA de NVIDIA, le robot humanoïde Unitree G1 et le modèle SMPL-X largement utilisé. Tous les modèles SOMA et G1 sont publiés sous la Licence de Modèle Ouvert NVIDIA, les rendant librement disponibles pour la recherche et les applications commerciales. Que vous construisiez des pipelines d'animation, entraîniez des politiques robotiques ou prototypiez des personnages interactifs, Kimodo fournit un mouvement de qualité production à la vitesse d'un prompt textuel.

Ce que Kimodo peut faire

Kimodo Texte vers Mouvement

Générez des mouvements humains 3D de haute qualité à partir d'instructions en langage naturel. Décrivez des actions comme « une personne marche vers l'avant puis commence à sauter » et Kimodo les fait prendre vie en quelques secondes. Enchaînez plusieurs prompts textuels sur une chronologie pour créer des séquences de mouvement complexes et multi-phases avec des transitions fluides entre chaque action.

Squelettes Humains et Robotiques

Kimodo prend en charge trois formats de squelette : le modèle corporel humain paramétrique SOMA de NVIDIA pour une utilisation en production, le squelette du robot humanoïde Unitree G1 pour les applications robotiques, et SMPL-X pour une compatibilité totale avec les pipelines existants de capture de mouvement et d'animation comme AMASS.

Kimodo Contrôles Cinématiques

Contrôle spatial et temporel précis via des images clés corps entier, des positions et rotations d'effecteur terminal, des points de passage 2D et des trajectoires 2D denses au sol. Kimodo applique toutes les contraintes directement dans l'espace de pose pendant le processus de débruitage par diffusion, garantissant des résultats précis et physiquement plausibles à chaque fois.

Pourquoi choisir Kimodo ?

Échelle d'entraînement sans précédent

Kimodo est entraîné sur plus de 700 heures de données de capture de mouvement en studio professionnel — soit environ 25 fois plus que les modèles concurrents comme MDM, MotionDiffuse ou MoMask. Cette échelle d'entraînement massive produit une qualité de mouvement supérieure, une plus grande diversité et une meilleure généralisation face aux prompts textuels nouveaux et complexes.

Contrôlabilité native

Contrairement aux approches en espace latent qui nécessitent une optimisation coûteuse lors de l'inférence, Kimodo opère directement dans l'espace de pose explicite. Les contraintes cinématiques incluant images clés, effecteurs terminaux, points de passage et trajectoires denses sont appliquées nativement à chaque étape de diffusion pour un contrôle précis, fiable et sans artefacts.

Support multi-squelette

Générez des mouvements pour des personnages numériques humains avec les modèles corporels SOMA ou SMPL-X, et pour des robots humanoïdes avec le squelette Unitree G1 — le tout depuis la famille de modèles Kimodo. Exportez en NPZ, CSV MuJoCo ou format AMASS pour une intégration fluide dans les pipelines d'animation, de simulation et de robotique.

Open source et adapté au commercial

Les checkpoints des modèles SOMA et G1 sont publiés sous la Licence de Modèle Ouvert NVIDIA, autorisant la recherche académique et le déploiement commercial. Une démo gratuite sur HuggingFace Spaces permet à quiconque d'essayer Kimodo instantanément dans le navigateur — aucun GPU ni installation requis.

Comment fonctionne Kimodo

Du prompt textuel au mouvement 3D en trois étapes simples

Étape 1

Décrivez votre mouvement

Rédigez un prompt en langage naturel comme « une personne marche vers l'avant, ramasse une boîte et se retourne. » Ajoutez éventuellement des contraintes cinématiques telles que des poses en images clés, des cibles d'effecteur terminal ou des trajectoires 2D au sol pour un contrôle spatial précis du mouvement généré.

Étape 2

Générez par diffusion

Le débruiteur transformer en deux étapes de Kimodo traite votre entrée. Le débruiteur racine prédit d'abord la trajectoire globale, puis le débruiteur corporel génère le mouvement articulaire détaillé. Le processus complet prend seulement 2 à 5 secondes sur une RTX 3090.

Étape 3

Exportez et intégrez

Téléchargez votre mouvement généré en NPZ pour un usage général, en CSV MuJoCo pour la simulation robotique dans des outils comme ProtoMotions, ou au format AMASS pour la compatibilité avec les pipelines d'animation et de recherche existants. Utilisez l'interface chronologique interactive pour affiner, itérer et exporter plusieurs variantes.

Kimodo Voyez-le en Action

La démo interactive de Kimodo offre une interface chronologique intuitive pour créer des mouvements complexes avec des prompts textuels et des contraintes cinématiques. Prévisualisez les résultats générés en visualisation 3D temps réel, comparez plusieurs échantillons côte à côte, basculez entre les personnages SOMA et G1, et exportez vos mouvements directement depuis le navigateur.

Modèles Kimodo Disponibles

Partie de l'Écosystème IA de Mouvement de NVIDIA pour l'IA Physique et la Robotique

ProtoMotions

Framework de simulation et d'apprentissage accéléré par GPU pour entraîner des humanoïdes simulés physiquement avec des données de mouvement générées par Kimodo

Modèle Corporel SOMA

Modèle corporel humain paramétrique unifié servant de représentation squelettique principale de Kimodo

Dataset BONES-SEED

Dataset de capture de mouvement humain à grande échelle publiquement disponible au format SOMA et G1 pour la recherche reproductible

GEM

Modèle complémentaire de diffusion de mouvement qui reconstruit le mouvement 3D à partir d'une entrée vidéo monoculaire

GEAR SONIC

Modèle de base de comportement humanoïde qui utilise les mouvements Kimodo comme démonstrations pour entraîner des politiques de robots physiques

SOMA Retargeter

Outil de reciblage physique basé sur Newton pour convertir les mouvements humains SOMA vers le squelette robot Unitree G1

Questions Fréquemment Posées

Citation

@article{Kimodo2026,
  title={Kimodo: Scaling Controllable Human Motion Generation},
  author={Rempe, Davis and Petrovich, Mathis and Yuan, Ye and Zhang, Haotian and Peng, Xue Bin and Jiang, Yifeng and Wang, Tingwu and Iqbal, Umar and Minor, David and de Ruyter, Michael and Li, Jiefeng and Tessler, Chen and Lim, Edy and Jeong, Eugene and Wu, Sam and Hassani, Ehsan and Huang, Michael and Yu, Jin-Bey and Chung, Chaeyeon and Song, Lina and Dionne, Olivier and Kautz, Jan and Yuen, Simon and Fidler, Sanja},
  journal={arXiv},
  year={2026}
}