Kimodo
Modelo Open-Source de Difusão de Movimento Cinemático da NVIDIA — Gere Movimentos 3D Controláveis de Humanos e Robôs a Partir de Texto
O Que É o Kimodo?
Kimodo (Kinematic Motion Diffusion) é um modelo open-source de geração de movimento 3D desenvolvido pela NVIDIA Research. Construído sobre uma arquitetura inovadora de difusão com transformer de dois estágios, o Kimodo gera movimentos humanos e robóticos de alta qualidade a partir de descrições textuais simples ou restrições cinemáticas precisas — tudo em apenas 2 a 5 segundos em uma única GPU.
Treinado com mais de 700 horas de dados profissionais de captura de movimento óptico do dataset Bones Rigplay, o Kimodo representa o maior modelo controlável de difusão de movimento disponível atualmente — com aproximadamente 25 vezes mais dados de treinamento do que modelos anteriores como MDM ou MotionDiffuse. Seu denoiser de dois estágios separa a predição da trajetória raiz da geração de movimento corporal, minimizando efetivamente artefatos comuns como flutuação e deslizamento dos pés que afetam outras abordagens de geração de movimento.
O Kimodo suporta três formatos de esqueleto: o modelo corporal humano paramétrico SOMA da NVIDIA, o robô humanoide Unitree G1 e o amplamente utilizado modelo SMPL-X. Todos os modelos SOMA e G1 são disponibilizados sob a Licença de Modelo Aberto da NVIDIA, tornando-os livremente acessíveis tanto para pesquisa quanto para aplicações comerciais. Seja para construir pipelines de animação, treinar políticas de robôs ou prototipar personagens interativos, o Kimodo oferece movimento de qualidade profissional na velocidade de um prompt de texto.
O Que o Kimodo Pode Fazer
Kimodo Texto para Movimento
Gere movimentos humanos 3D de alta qualidade a partir de instruções em linguagem natural. Descreva ações como "uma pessoa caminha para frente e começa a pular" e o Kimodo dá vida a isso em segundos. Encadeie múltiplos prompts de texto em uma linha do tempo para criar sequências de movimento complexas e multifásicas com transições suaves entre cada ação.
Esqueletos Humanos + Robóticos
O Kimodo suporta três formatos de esqueleto: o modelo corporal humano paramétrico SOMA da NVIDIA para uso em produção, o esqueleto do robô humanoide Unitree G1 para aplicações de robótica e SMPL-X para total compatibilidade com pipelines existentes de captura de movimento e animação como AMASS.
Kimodo Controles Cinemáticos
Controle espacial e temporal refinado por meio de keyframes de corpo inteiro, posições e rotações de efetor final, waypoints 2D e trajetórias 2D densas no solo. O Kimodo aplica todas as restrições diretamente no espaço de poses durante o processo de denoising por difusão, garantindo resultados precisos e fisicamente plausíveis a cada geração.
Por Que Escolher o Kimodo?
Escala de Treinamento Sem Precedentes
O Kimodo é treinado com mais de 700 horas de dados profissionais de captura de movimento em estúdio — aproximadamente 25 vezes mais do que modelos concorrentes como MDM, MotionDiffuse ou MoMask. Essa escala massiva de treinamento proporciona qualidade de movimento superior, maior diversidade e melhor generalização para prompts de texto novos e complexos.
Controlabilidade Nativa
Diferente de abordagens em espaço latente que exigem otimização custosa em tempo de teste, o Kimodo opera diretamente no espaço explícito de poses. Restrições cinemáticas incluindo keyframes, efetores finais, waypoints e trajetórias densas são aplicadas nativamente em cada passo da difusão para controle preciso, confiável e livre de artefatos.
Suporte a Múltiplos Esqueletos
Gere movimento para personagens humanos digitais usando os modelos corporais SOMA ou SMPL-X, e para robôs humanoides usando o esqueleto Unitree G1 — tudo a partir da família de modelos Kimodo. Exporte como NPZ, MuJoCo CSV ou formato AMASS para integração perfeita em pipelines de animação, simulação e robótica.
Open Source e Uso Comercial
Os checkpoints dos modelos SOMA e G1 são disponibilizados sob a Licença de Modelo Aberto da NVIDIA, permitindo tanto pesquisa acadêmica quanto implantação comercial. Uma demo gratuita no HuggingFace Spaces permite que qualquer pessoa experimente o Kimodo instantaneamente no navegador — sem GPU ou instalação necessária.
Como o Kimodo Funciona
De prompt de texto a movimento 3D em três passos simples
Passo 1
Descreva Seu Movimento
Escreva um prompt em linguagem natural como "uma pessoa caminha para frente, pega uma caixa e vira." Opcionalmente, adicione restrições cinemáticas como poses de keyframe, alvos de efetor final ou trajetórias 2D no solo para controle espacial preciso sobre o movimento gerado.
Passo 2
Gere com Difusão
O denoiser transformer de dois estágios do Kimodo processa sua entrada. O denoiser raiz prediz a trajetória global primeiro, depois o denoiser corporal gera o movimento detalhado das articulações. O processo completo leva apenas 2 a 5 segundos em uma RTX 3090.
Passo 3
Exporte e Integre
Baixe seu movimento gerado como NPZ para uso geral, MuJoCo CSV para simulação robótica em ferramentas como ProtoMotions, ou formato AMASS para compatibilidade com pipelines existentes de animação e pesquisa. Use a interface interativa de linha do tempo para refinar, iterar e exportar múltiplas variações.
Kimodo Veja em Ação
A demo interativa do Kimodo oferece uma interface intuitiva de linha do tempo para criar movimentos complexos com prompts de texto e restrições cinemáticas. Visualize os resultados gerados em 3D em tempo real, compare múltiplas amostras lado a lado, alterne entre personagens SOMA e G1, e exporte seus movimentos diretamente do navegador.
Parte do Ecossistema de IA de Movimento da NVIDIA para IA Física e Robótica
Perguntas Frequentes
Citação
@article{Kimodo2026,
title={Kimodo: Scaling Controllable Human Motion Generation},
author={Rempe, Davis and Petrovich, Mathis and Yuan, Ye and Zhang, Haotian and Peng, Xue Bin and Jiang, Yifeng and Wang, Tingwu and Iqbal, Umar and Minor, David and de Ruyter, Michael and Li, Jiefeng and Tessler, Chen and Lim, Edy and Jeong, Eugene and Wu, Sam and Hassani, Ehsan and Huang, Michael and Yu, Jin-Bey and Chung, Chaeyeon and Song, Lina and Dionne, Olivier and Kautz, Jan and Yuen, Simon and Fidler, Sanja},
journal={arXiv},
year={2026}
}