Kimodo
El Modelo de Difusión de Movimiento Cinemático de Código Abierto de NVIDIA — Genera Movimiento 3D Controlable de Humanos y Robots desde Texto
¿Qué es Kimodo?
Kimodo (Kinematic Motion Diffusion) es un modelo de generación de movimiento 3D de código abierto desarrollado por NVIDIA Research. Basado en una novedosa arquitectura de difusión con transformador de dos etapas, Kimodo genera movimientos de alta calidad para humanos y robots a partir de simples descripciones de texto o restricciones cinemáticas precisas, todo en solo 2 a 5 segundos en una sola GPU.
Entrenado con más de 700 horas de datos profesionales de captura de movimiento óptico del dataset Bones Rigplay, Kimodo representa el modelo de difusión de movimiento controlable a mayor escala disponible en la actualidad, con aproximadamente 25 veces más datos de entrenamiento que modelos anteriores como MDM o MotionDiffuse. Su denoiser de dos etapas separa la predicción de la trayectoria raíz de la generación del movimiento corporal, minimizando eficazmente artefactos comunes como la flotación y el deslizamiento de pies que afectan a otros enfoques de generación de movimiento.
Kimodo admite tres formatos de esqueleto: SOMA de NVIDIA para el cuerpo humano paramétrico, el robot humanoide Unitree G1 y el ampliamente utilizado modelo SMPL-X. Todos los modelos SOMA y G1 se publican bajo la NVIDIA Open Model License, haciéndolos disponibles gratuitamente tanto para investigación como para aplicaciones comerciales. Ya sea que estés construyendo pipelines de animación, entrenando políticas de robots o prototipando personajes interactivos, Kimodo proporciona movimiento de calidad profesional a la velocidad de un prompt de texto.
Qué puede hacer Kimodo
Kimodo Texto a Movimiento
Genera movimiento humano 3D de alta calidad a partir de indicaciones en lenguaje natural. Describe acciones como "una persona camina hacia adelante y luego empieza a saltar" y Kimodo lo da vida en segundos. Encadena múltiples indicaciones de texto en una línea de tiempo para crear secuencias de movimiento complejas y multifásicas con transiciones suaves entre cada acción.
Esqueletos Humanos y de Robot
Kimodo admite tres formatos de esqueleto: el modelo corporal paramétrico SOMA de NVIDIA para uso en producción, el esqueleto del robot humanoide Unitree G1 para aplicaciones de robótica, y SMPL-X para compatibilidad total con pipelines existentes de captura de movimiento y animación como AMASS.
Kimodo Controles Cinemáticos
Control espacial y temporal detallado mediante fotogramas clave de cuerpo completo, posiciones y rotaciones de efector final, puntos de ruta 2D y trayectorias 2D densas. Kimodo aplica todas las restricciones directamente en el espacio de poses durante el proceso de denoising por difusión, asegurando resultados precisos y físicamente plausibles en todo momento.
¿Por qué elegir Kimodo?
Escala de Entrenamiento Sin Precedentes
Kimodo está entrenado con más de 700 horas de datos profesionales de captura de movimiento en estudio, aproximadamente 25 veces más que modelos competidores como MDM, MotionDiffuse o MoMask. Esta escala masiva de entrenamiento ofrece una calidad de movimiento superior, mayor diversidad y una generalización más robusta ante prompts de texto novedosos y complejos.
Controlabilidad Nativa
A diferencia de los enfoques en espacio latente que requieren una costosa optimización en tiempo de inferencia, Kimodo opera directamente en el espacio explícito de poses. Las restricciones cinemáticas, incluyendo fotogramas clave, efectores finales, puntos de ruta y trayectorias densas, se aplican de forma nativa durante cada paso de difusión para un control preciso, fiable y libre de artefactos.
Soporte Multi-Esqueleto
Genera movimiento para personajes humanos digitales usando los modelos corporales SOMA o SMPL-X, y para robots humanoides usando el esqueleto Unitree G1, todo desde la familia de modelos Kimodo. Exporta como NPZ, MuJoCo CSV o formato AMASS para una integración fluida en pipelines de animación, simulación y robótica.
Código Abierto y Apto para Uso Comercial
Los checkpoints de los modelos SOMA y G1 se publican bajo la NVIDIA Open Model License, permitiendo tanto la investigación académica como el despliegue comercial. Un demo gratuito en HuggingFace Spaces permite a cualquiera probar Kimodo al instante en el navegador, sin necesidad de GPU ni instalación.
Cómo funciona Kimodo
Del prompt de texto al movimiento 3D en tres sencillos pasos
Paso 1
Describe tu Movimiento
Escribe una indicación en lenguaje natural como "una persona camina hacia adelante, recoge una caja y se da la vuelta." Opcionalmente, añade restricciones cinemáticas como poses de fotogramas clave, objetivos de efector final o trayectorias 2D para un control espacial preciso sobre el movimiento generado.
Paso 2
Genera con Difusión
El denoiser de dos etapas con transformador de Kimodo procesa tu entrada. El denoiser raíz predice primero la trayectoria global y luego el denoiser corporal genera el movimiento detallado de las articulaciones. El proceso completo toma solo 2–5 segundos en una RTX 3090.
Paso 3
Exporta e Integra
Descarga tu movimiento generado como NPZ para uso general, MuJoCo CSV para simulación robótica en herramientas como ProtoMotions, o formato AMASS para compatibilidad con pipelines existentes de animación e investigación. Usa la interfaz interactiva de línea de tiempo para refinar, iterar y exportar múltiples variaciones.
Kimodo Véalo en Acción
El demo interactivo de Kimodo ofrece una interfaz intuitiva de línea de tiempo para crear movimientos complejos con indicaciones de texto y restricciones cinemáticas. Previsualiza los resultados generados en visualización 3D en tiempo real, compara múltiples muestras lado a lado, cambia entre personajes SOMA y G1, y exporta tus movimientos directamente desde el navegador.
Parte del Ecosistema de IA de Movimiento de NVIDIA para IA Física y Robótica
Preguntas Frecuentes
Cita
@article{Kimodo2026,
title={Kimodo: Scaling Controllable Human Motion Generation},
author={Rempe, Davis and Petrovich, Mathis and Yuan, Ye and Zhang, Haotian and Peng, Xue Bin and Jiang, Yifeng and Wang, Tingwu and Iqbal, Umar and Minor, David and de Ruyter, Michael and Li, Jiefeng and Tessler, Chen and Lim, Edy and Jeong, Eugene and Wu, Sam and Hassani, Ehsan and Huang, Michael and Yu, Jin-Bey and Chung, Chaeyeon and Song, Lina and Dionne, Olivier and Kautz, Jan and Yuen, Simon and Fidler, Sanja},
journal={arXiv},
year={2026}
}