Kimodo

Modelo Open-Source de Difusão de Movimento Cinemático da NVIDIA — Gere Movimentos 3D Controláveis de Humanos e Robôs a Partir de Texto

700hrs de MocapHumano + RobôTexto para MovimentoOpen Source

Experimentar no HuggingFace Ver no GitHub

O Que É o Kimodo?

Kimodo (Kinematic Motion Diffusion) é um modelo open-source de geração de movimento 3D desenvolvido pela NVIDIA Research. Construído sobre uma arquitetura inovadora de difusão com transformer de dois estágios, o Kimodo gera movimentos humanos e robóticos de alta qualidade a partir de descrições textuais simples ou restrições cinemáticas precisas — tudo em apenas 2 a 5 segundos em uma única GPU.

Treinado com mais de 700 horas de dados profissionais de captura de movimento óptico do dataset Bones Rigplay, o Kimodo representa o maior modelo controlável de difusão de movimento disponível atualmente — com aproximadamente 25 vezes mais dados de treinamento do que modelos anteriores como MDM ou MotionDiffuse. Seu denoiser de dois estágios separa a predição da trajetória raiz da geração de movimento corporal, minimizando efetivamente artefatos comuns como flutuação e deslizamento dos pés que afetam outras abordagens de geração de movimento.

O Kimodo suporta três formatos de esqueleto: o modelo corporal humano paramétrico SOMA da NVIDIA, o robô humanoide Unitree G1 e o amplamente utilizado modelo SMPL-X. Todos os modelos SOMA e G1 são disponibilizados sob a Licença de Modelo Aberto da NVIDIA, tornando-os livremente acessíveis tanto para pesquisa quanto para aplicações comerciais. Seja para construir pipelines de animação, treinar políticas de robôs ou prototipar personagens interativos, o Kimodo oferece movimento de qualidade profissional na velocidade de um prompt de texto.

O Que o Kimodo Pode Fazer

Kimodo Texto para Movimento

Gere movimentos humanos 3D de alta qualidade a partir de instruções em linguagem natural. Descreva ações como "uma pessoa caminha para frente e começa a pular" e o Kimodo dá vida a isso em segundos. Encadeie múltiplos prompts de texto em uma linha do tempo para criar sequências de movimento complexas e multifásicas com transições suaves entre cada ação.

Esqueletos Humanos + Robóticos

O Kimodo suporta três formatos de esqueleto: o modelo corporal humano paramétrico SOMA da NVIDIA para uso em produção, o esqueleto do robô humanoide Unitree G1 para aplicações de robótica e SMPL-X para total compatibilidade com pipelines existentes de captura de movimento e animação como AMASS.

Kimodo Controles Cinemáticos

Controle espacial e temporal refinado por meio de keyframes de corpo inteiro, posições e rotações de efetor final, waypoints 2D e trajetórias 2D densas no solo. O Kimodo aplica todas as restrições diretamente no espaço de poses durante o processo de denoising por difusão, garantindo resultados precisos e fisicamente plausíveis a cada geração.

Por Que Escolher o Kimodo?

Escala de Treinamento Sem Precedentes

O Kimodo é treinado com mais de 700 horas de dados profissionais de captura de movimento em estúdio — aproximadamente 25 vezes mais do que modelos concorrentes como MDM, MotionDiffuse ou MoMask. Essa escala massiva de treinamento proporciona qualidade de movimento superior, maior diversidade e melhor generalização para prompts de texto novos e complexos.

Controlabilidade Nativa

Diferente de abordagens em espaço latente que exigem otimização custosa em tempo de teste, o Kimodo opera diretamente no espaço explícito de poses. Restrições cinemáticas incluindo keyframes, efetores finais, waypoints e trajetórias densas são aplicadas nativamente em cada passo da difusão para controle preciso, confiável e livre de artefatos.

Suporte a Múltiplos Esqueletos

Gere movimento para personagens humanos digitais usando os modelos corporais SOMA ou SMPL-X, e para robôs humanoides usando o esqueleto Unitree G1 — tudo a partir da família de modelos Kimodo. Exporte como NPZ, MuJoCo CSV ou formato AMASS para integração perfeita em pipelines de animação, simulação e robótica.

Open Source e Uso Comercial

Os checkpoints dos modelos SOMA e G1 são disponibilizados sob a Licença de Modelo Aberto da NVIDIA, permitindo tanto pesquisa acadêmica quanto implantação comercial. Uma demo gratuita no HuggingFace Spaces permite que qualquer pessoa experimente o Kimodo instantaneamente no navegador — sem GPU ou instalação necessária.

Como o Kimodo Funciona

De prompt de texto a movimento 3D em três passos simples

Passo 1

Descreva Seu Movimento

Escreva um prompt em linguagem natural como "uma pessoa caminha para frente, pega uma caixa e vira." Opcionalmente, adicione restrições cinemáticas como poses de keyframe, alvos de efetor final ou trajetórias 2D no solo para controle espacial preciso sobre o movimento gerado.

Passo 2

Gere com Difusão

O denoiser transformer de dois estágios do Kimodo processa sua entrada. O denoiser raiz prediz a trajetória global primeiro, depois o denoiser corporal gera o movimento detalhado das articulações. O processo completo leva apenas 2 a 5 segundos em uma RTX 3090.

Passo 3

Exporte e Integre

Baixe seu movimento gerado como NPZ para uso geral, MuJoCo CSV para simulação robótica em ferramentas como ProtoMotions, ou formato AMASS para compatibilidade com pipelines existentes de animação e pesquisa. Use a interface interativa de linha do tempo para refinar, iterar e exportar múltiplas variações.

Kimodo Veja em Ação

A demo interativa do Kimodo oferece uma interface intuitiva de linha do tempo para criar movimentos complexos com prompts de texto e restrições cinemáticas. Visualize os resultados gerados em 3D em tempo real, compare múltiplas amostras lado a lado, alterne entre personagens SOMA e G1, e exporte seus movimentos diretamente do navegador.

Modelos Kimodo Disponíveis

Parte do Ecossistema de IA de Movimento da NVIDIA para IA Física e Robótica

ProtoMotions

Framework de simulação e aprendizado acelerado por GPU para treinar humanoides fisicamente simulados com dados de movimento gerados pelo Kimodo

Modelo Corporal SOMA

Modelo corporal humano paramétrico unificado que serve como representação de esqueleto principal do Kimodo

Dataset BONES-SEED

Dataset de captura de movimento humano em larga escala publicamente disponível no formato SOMA e G1 para pesquisa reprodutível

GEM

Modelo complementar de difusão de movimento que reconstrói movimentos 3D a partir de entrada de vídeo monocular

GEAR SONIC

Modelo base de comportamento humanoide que usa movimentos do Kimodo como demonstrações para treinar políticas de robôs físicos

SOMA Retargeter

Ferramenta de retargeting baseada em Newton para converter movimentos humanos SOMA para o esqueleto do robô Unitree G1

Perguntas Frequentes

Citação

@article{Kimodo2026,
  title={Kimodo: Scaling Controllable Human Motion Generation},
  author={Rempe, Davis and Petrovich, Mathis and Yuan, Ye and Zhang, Haotian and Peng, Xue Bin and Jiang, Yifeng and Wang, Tingwu and Iqbal, Umar and Minor, David and de Ruyter, Michael and Li, Jiefeng and Tessler, Chen and Lim, Edy and Jeong, Eugene and Wu, Sam and Hassani, Ehsan and Huang, Michael and Yu, Jin-Bey and Chung, Chaeyeon and Song, Lina and Dionne, Olivier and Kautz, Jan and Yuen, Simon and Fidler, Sanja},
  journal={arXiv},
  year={2026}
}