Kimodo

NVIDIAs Open-Source-Modell für kinematische Bewegungsdiffusion — Generieren Sie steuerbare 3D-Bewegungen für Menschen und Roboter aus Text

700hrs MocapMensch + RoboterText-zu-BewegungOpen Source

Auf HuggingFace ausprobieren Auf GitHub ansehen

Was ist Kimodo?

Kimodo (Kinematic Motion Diffusion) ist ein Open-Source-Modell zur 3D-Bewegungsgenerierung, entwickelt von NVIDIA Research. Aufgebaut auf einer neuartigen zweistufigen Transformer-Diffusionsarchitektur generiert Kimodo hochwertige Menschen- und Roboterbewegungen aus einfachen Textbeschreibungen oder präzisen kinematischen Vorgaben — und das in nur 2 bis 5 Sekunden auf einer einzelnen GPU.

Trainiert auf über 700 Stunden professioneller optischer Motion-Capture-Daten aus dem Bones-Rigplay-Datensatz ist Kimodo das größte verfügbare steuerbare Bewegungsdiffusionsmodell — mit etwa 25-mal mehr Trainingsdaten als frühere Modelle wie MDM oder MotionDiffuse. Der zweistufige Denoiser trennt die Vorhersage der Wurzeltrajektorie von der Körperbewegungsgenerierung und minimiert so gängige Artefakte wie Schweben und Fußgleiten, die andere Ansätze zur Bewegungsgenerierung beeinträchtigen.

Kimodo unterstützt drei Skelettformate: NVIDIAs parametrisches SOMA-Körpermodell, das Unitree G1-Humanoiden-Roboter-Skelett und das weit verbreitete SMPL-X-Modell. Alle SOMA- und G1-Modelle sind unter der NVIDIA Open Model License veröffentlicht und damit frei für Forschung und kommerzielle Anwendungen verfügbar. Ob Sie Animations-Pipelines erstellen, Roboter-Policies trainieren oder interaktive Charaktere prototypen — Kimodo liefert produktionsreife Bewegungen in der Geschwindigkeit einer Texteingabe.

Was Kimodo kann

Kimodo Text-zu-Bewegung

Generieren Sie hochwertige 3D-Menschenbewegungen aus natürlichsprachlichen Eingaben. Beschreiben Sie Aktionen wie ‚eine Person geht vorwärts und fängt dann an zu springen' und Kimodo erweckt sie in Sekunden zum Leben. Verketten Sie mehrere Textanweisungen auf einer Timeline, um komplexe, mehrphasige Bewegungssequenzen mit fließenden Übergängen zwischen jeder Aktion zu erstellen.

Menschen- und Roboter-Skelette

Kimodo unterstützt drei Skelettformate: NVIDIAs parametrisches SOMA-Körpermodell für den Produktionseinsatz, das Unitree G1-Humanoiden-Roboter-Skelett für Robotik-Anwendungen und SMPL-X für volle Kompatibilität mit bestehenden Motion-Capture- und Animations-Pipelines wie AMASS.

Kimodo Kinematische Steuerung

Feinkörnige räumliche und zeitliche Kontrolle durch Ganzkörper-Keyframes, Endeffektorpositionen und -rotationen, 2D-Wegpunkte und dichte 2D-Bodenpfade. Kimodo wendet alle Einschränkungen direkt im Pose-Raum während des Diffusions-Denoising-Prozesses an und gewährleistet so jedes Mal präzise und physikalisch plausible Ergebnisse.

Warum Kimodo wählen?

Beispielloser Trainingsumfang

Kimodo wurde auf über 700 Stunden professioneller Studio-Motion-Capture-Daten trainiert — etwa 25-mal mehr als konkurrierende Modelle wie MDM, MotionDiffuse oder MoMask. Dieser massive Trainingsumfang liefert überlegene Bewegungsqualität, größere Vielfalt und stärkere Generalisierung auf neuartige und komplexe Textanweisungen.

Native Steuerbarkeit

Anders als Latent-Space-Ansätze, die aufwendige Test-Time-Optimierung erfordern, arbeitet Kimodo direkt im expliziten Pose-Raum. Kinematische Einschränkungen wie Keyframes, Endeffektoren, Wegpunkte und dichte Pfade werden nativ in jedem Diffusionsschritt angewendet — für präzise, zuverlässige und artefaktfreie Steuerung.

Multi-Skelett-Unterstützung

Generieren Sie Bewegungen für digitale menschliche Charaktere mit SOMA- oder SMPL-X-Körpermodellen und für humanoide Roboter mit dem Unitree G1-Skelett — alles aus der Kimodo-Modellfamilie. Export als NPZ, MuJoCo CSV oder AMASS-Format für nahtlose Integration in Animations-, Simulations- und Robotik-Pipelines.

Open Source und kommerziell nutzbar

SOMA- und G1-Modell-Checkpoints sind unter der NVIDIA Open Model License veröffentlicht und erlauben sowohl akademische Forschung als auch kommerzielle Nutzung. Eine kostenlose HuggingFace-Spaces-Demo ermöglicht es jedem, Kimodo sofort im Browser auszuprobieren — ohne GPU oder Installation.

So funktioniert Kimodo

Vom Textprompt zur 3D-Bewegung in drei einfachen Schritten

Schritt 1

Beschreiben Sie Ihre Bewegung

Schreiben Sie eine natürlichsprachliche Anweisung wie ‚eine Person geht vorwärts, hebt eine Kiste auf und dreht sich um.' Optional können Sie kinematische Einschränkungen wie Keyframe-Posen, Endeffektor-Ziele oder 2D-Bodenpfade hinzufügen, um präzise räumliche Kontrolle über die generierte Bewegung zu erhalten.

Schritt 2

Generierung durch Diffusion

Kimodos zweistufiger Transformer-Denoiser verarbeitet Ihre Eingabe. Der Root-Denoiser sagt zunächst die globale Trajektorie vorher, dann generiert der Body-Denoiser die detaillierte Gelenkbewegung. Der gesamte Prozess dauert nur 2–5 Sekunden auf einer RTX 3090.

Schritt 3

Exportieren und integrieren

Laden Sie Ihre generierte Bewegung als NPZ für allgemeine Nutzung, MuJoCo CSV für Robotik-Simulation in Tools wie ProtoMotions oder AMASS-Format für Kompatibilität mit bestehenden Animations- und Forschungs-Pipelines herunter. Nutzen Sie die interaktive Timeline-Oberfläche zum Verfeinern, Iterieren und Exportieren mehrerer Varianten.

Kimodo In Aktion erleben

Die interaktive Kimodo-Demo bietet eine intuitive Timeline-Oberfläche zum Erstellen komplexer Bewegungen mit Textanweisungen und kinematischen Einschränkungen. Sehen Sie generierte Ergebnisse in Echtzeit-3D-Visualisierung, vergleichen Sie mehrere Varianten nebeneinander, wechseln Sie zwischen SOMA- und G1-Charakteren und exportieren Sie Ihre Bewegungen direkt aus dem Browser.

Verfügbare Kimodo-Modelle

Teil von NVIDIAs Motion-AI-Ökosystem für Physical AI und Robotik

ProtoMotions

GPU-beschleunigtes Simulations- und Lernframework zum Trainieren physisch simulierter Humanoider mit Kimodo-generierten Bewegungsdaten

SOMA Körpermodell

Einheitliches parametrisches menschliches Körpermodell als primäre Skelett-Repräsentation von Kimodo

BONES-SEED Datensatz

Großangelegter öffentlich verfügbarer Motion-Capture-Datensatz im SOMA- und G1-Format für reproduzierbare Forschung

GEM

Komplementäres Bewegungsdiffusionsmodell, das 3D-Bewegungen aus monokularem Videomaterial rekonstruiert

GEAR SONIC

Humanoiden-Verhaltens-Foundation-Modell, das Kimodo-Bewegungen als Demonstrationen zum Trainieren physischer Roboter-Policies nutzt

SOMA Retargeter

Newton-basiertes Physik-Retargeting-Werkzeug zur Konvertierung von SOMA-Menschenbewegungen auf das Unitree G1-Roboter-Skelett

Häufig gestellte Fragen

Zitat

@article{Kimodo2026,
  title={Kimodo: Scaling Controllable Human Motion Generation},
  author={Rempe, Davis and Petrovich, Mathis and Yuan, Ye and Zhang, Haotian and Peng, Xue Bin and Jiang, Yifeng and Wang, Tingwu and Iqbal, Umar and Minor, David and de Ruyter, Michael and Li, Jiefeng and Tessler, Chen and Lim, Edy and Jeong, Eugene and Wu, Sam and Hassani, Ehsan and Huang, Michael and Yu, Jin-Bey and Chung, Chaeyeon and Song, Lina and Dionne, Olivier and Kautz, Jan and Yuen, Simon and Fidler, Sanja},
  journal={arXiv},
  year={2026}
}