Kimodo

El Modelo de Difusión de Movimiento Cinemático de Código Abierto de NVIDIA — Genera Movimiento 3D Controlable de Humanos y Robots desde Texto

700hrs de MocapHumano + RobotTexto a MovimientoCódigo Abierto

Probar en HuggingFace Ver en GitHub

¿Qué es Kimodo?

Kimodo (Kinematic Motion Diffusion) es un modelo de generación de movimiento 3D de código abierto desarrollado por NVIDIA Research. Basado en una novedosa arquitectura de difusión con transformador de dos etapas, Kimodo genera movimientos de alta calidad para humanos y robots a partir de simples descripciones de texto o restricciones cinemáticas precisas, todo en solo 2 a 5 segundos en una sola GPU.

Entrenado con más de 700 horas de datos profesionales de captura de movimiento óptico del dataset Bones Rigplay, Kimodo representa el modelo de difusión de movimiento controlable a mayor escala disponible en la actualidad, con aproximadamente 25 veces más datos de entrenamiento que modelos anteriores como MDM o MotionDiffuse. Su denoiser de dos etapas separa la predicción de la trayectoria raíz de la generación del movimiento corporal, minimizando eficazmente artefactos comunes como la flotación y el deslizamiento de pies que afectan a otros enfoques de generación de movimiento.

Kimodo admite tres formatos de esqueleto: SOMA de NVIDIA para el cuerpo humano paramétrico, el robot humanoide Unitree G1 y el ampliamente utilizado modelo SMPL-X. Todos los modelos SOMA y G1 se publican bajo la NVIDIA Open Model License, haciéndolos disponibles gratuitamente tanto para investigación como para aplicaciones comerciales. Ya sea que estés construyendo pipelines de animación, entrenando políticas de robots o prototipando personajes interactivos, Kimodo proporciona movimiento de calidad profesional a la velocidad de un prompt de texto.

Qué puede hacer Kimodo

Kimodo Texto a Movimiento

Genera movimiento humano 3D de alta calidad a partir de indicaciones en lenguaje natural. Describe acciones como "una persona camina hacia adelante y luego empieza a saltar" y Kimodo lo da vida en segundos. Encadena múltiples indicaciones de texto en una línea de tiempo para crear secuencias de movimiento complejas y multifásicas con transiciones suaves entre cada acción.

Esqueletos Humanos y de Robot

Kimodo admite tres formatos de esqueleto: el modelo corporal paramétrico SOMA de NVIDIA para uso en producción, el esqueleto del robot humanoide Unitree G1 para aplicaciones de robótica, y SMPL-X para compatibilidad total con pipelines existentes de captura de movimiento y animación como AMASS.

Kimodo Controles Cinemáticos

Control espacial y temporal detallado mediante fotogramas clave de cuerpo completo, posiciones y rotaciones de efector final, puntos de ruta 2D y trayectorias 2D densas. Kimodo aplica todas las restricciones directamente en el espacio de poses durante el proceso de denoising por difusión, asegurando resultados precisos y físicamente plausibles en todo momento.

¿Por qué elegir Kimodo?

Escala de Entrenamiento Sin Precedentes

Kimodo está entrenado con más de 700 horas de datos profesionales de captura de movimiento en estudio, aproximadamente 25 veces más que modelos competidores como MDM, MotionDiffuse o MoMask. Esta escala masiva de entrenamiento ofrece una calidad de movimiento superior, mayor diversidad y una generalización más robusta ante prompts de texto novedosos y complejos.

Controlabilidad Nativa

A diferencia de los enfoques en espacio latente que requieren una costosa optimización en tiempo de inferencia, Kimodo opera directamente en el espacio explícito de poses. Las restricciones cinemáticas, incluyendo fotogramas clave, efectores finales, puntos de ruta y trayectorias densas, se aplican de forma nativa durante cada paso de difusión para un control preciso, fiable y libre de artefactos.

Soporte Multi-Esqueleto

Genera movimiento para personajes humanos digitales usando los modelos corporales SOMA o SMPL-X, y para robots humanoides usando el esqueleto Unitree G1, todo desde la familia de modelos Kimodo. Exporta como NPZ, MuJoCo CSV o formato AMASS para una integración fluida en pipelines de animación, simulación y robótica.

Código Abierto y Apto para Uso Comercial

Los checkpoints de los modelos SOMA y G1 se publican bajo la NVIDIA Open Model License, permitiendo tanto la investigación académica como el despliegue comercial. Un demo gratuito en HuggingFace Spaces permite a cualquiera probar Kimodo al instante en el navegador, sin necesidad de GPU ni instalación.

Cómo funciona Kimodo

Del prompt de texto al movimiento 3D en tres sencillos pasos

Paso 1

Describe tu Movimiento

Escribe una indicación en lenguaje natural como "una persona camina hacia adelante, recoge una caja y se da la vuelta." Opcionalmente, añade restricciones cinemáticas como poses de fotogramas clave, objetivos de efector final o trayectorias 2D para un control espacial preciso sobre el movimiento generado.

Paso 2

Genera con Difusión

El denoiser de dos etapas con transformador de Kimodo procesa tu entrada. El denoiser raíz predice primero la trayectoria global y luego el denoiser corporal genera el movimiento detallado de las articulaciones. El proceso completo toma solo 2–5 segundos en una RTX 3090.

Paso 3

Exporta e Integra

Descarga tu movimiento generado como NPZ para uso general, MuJoCo CSV para simulación robótica en herramientas como ProtoMotions, o formato AMASS para compatibilidad con pipelines existentes de animación e investigación. Usa la interfaz interactiva de línea de tiempo para refinar, iterar y exportar múltiples variaciones.

Kimodo Véalo en Acción

El demo interactivo de Kimodo ofrece una interfaz intuitiva de línea de tiempo para crear movimientos complejos con indicaciones de texto y restricciones cinemáticas. Previsualiza los resultados generados en visualización 3D en tiempo real, compara múltiples muestras lado a lado, cambia entre personajes SOMA y G1, y exporta tus movimientos directamente desde el navegador.

Modelos Kimodo Disponibles

Parte del Ecosistema de IA de Movimiento de NVIDIA para IA Física y Robótica

ProtoMotions

Framework de simulación y aprendizaje acelerado por GPU para entrenar humanoides simulados físicamente con datos de movimiento generados por Kimodo

Modelo Corporal SOMA

Modelo corporal humano paramétrico unificado que sirve como la representación de esqueleto principal de Kimodo

Dataset BONES-SEED

Dataset de captura de movimiento humano a gran escala, disponible públicamente, en formato SOMA y G1 para investigación reproducible

GEM

Modelo de difusión de movimiento complementario que reconstruye movimiento 3D a partir de vídeo monocular

GEAR SONIC

Modelo fundacional de comportamiento humanoide que usa movimientos de Kimodo como demostraciones para entrenar políticas de robots físicos

SOMA Retargeter

Herramienta de retargeteo basada en Newton para convertir movimientos humanos SOMA al esqueleto del robot Unitree G1

Preguntas Frecuentes

Cita

@article{Kimodo2026,
  title={Kimodo: Scaling Controllable Human Motion Generation},
  author={Rempe, Davis and Petrovich, Mathis and Yuan, Ye and Zhang, Haotian and Peng, Xue Bin and Jiang, Yifeng and Wang, Tingwu and Iqbal, Umar and Minor, David and de Ruyter, Michael and Li, Jiefeng and Tessler, Chen and Lim, Edy and Jeong, Eugene and Wu, Sam and Hassani, Ehsan and Huang, Michael and Yu, Jin-Bey and Chung, Chaeyeon and Song, Lina and Dionne, Olivier and Kautz, Jan and Yuen, Simon and Fidler, Sanja},
  journal={arXiv},
  year={2026}
}