Kimodo

Модель кинематической диффузии движений от NVIDIA с открытым кодом — генерация управляемых 3D-движений людей и роботов по тексту

700hrs захвата движенияЧеловек + РоботТекст в движениеОткрытый исходный код

Попробовать на HuggingFace Посмотреть на GitHub

Что такое Kimodo?

Kimodo (Kinematic Motion Diffusion) — это модель генерации 3D-движений с открытым исходным кодом, разработанная NVIDIA Research. Построенная на новой двухэтапной архитектуре трансформер-диффузии, Kimodo генерирует высококачественные движения людей и роботов по простым текстовым описаниям или точным кинематическим ограничениям — всего за 2–5 секунд на одном GPU.

Обученная на более чем 700 часах профессиональных данных оптического захвата движений из датасета Bones Rigplay, Kimodo представляет собой крупнейшую на сегодняшний день управляемую модель диффузии движений — примерно в 25 раз больше обучающих данных, чем у предшествующих моделей вроде MDM или MotionDiffuse. Её двухэтапный денойзер разделяет предсказание корневой траектории и генерацию движений тела, эффективно минимизируя типичные артефакты — зависание в воздухе и проскальзывание стоп, — которые свойственны другим подходам к генерации движений.

Kimodo поддерживает три формата скелетов: параметрическую модель тела SOMA от NVIDIA, гуманоидного робота Unitree G1 и широко используемую модель SMPL-X. Все модели SOMA и G1 выпущены под лицензией NVIDIA Open Model License, что делает их свободно доступными как для исследований, так и для коммерческого использования. Будь то создание пайплайнов анимации, обучение политик роботов или прототипирование интерактивных персонажей — Kimodo обеспечивает движение продакшн-качества со скоростью текстового промпта.

Возможности Kimodo

Kimodo Текст в движение

Генерируйте высококачественные 3D-движения человека по описаниям на естественном языке. Опишите действия, например «человек идёт вперёд, а затем начинает прыгать», и Kimodo оживит их за секунды. Объединяйте несколько текстовых промптов на временной шкале, чтобы создавать сложные многофазные последовательности движений с плавными переходами между каждым действием.

Скелеты человека и робота

Kimodo поддерживает три формата скелетов: параметрическую модель тела SOMA от NVIDIA для продакшн-использования, скелет гуманоидного робота Unitree G1 для робототехнических задач и SMPL-X для полной совместимости с существующими пайплайнами захвата движений и анимации, такими как AMASS.

Kimodo Кинематическое управление

Точное пространственное и временное управление с помощью ключевых кадров всего тела, положений и вращений концевых эффекторов, 2D-путевых точек и плотных 2D-траекторий на земле. Kimodo применяет все ограничения непосредственно в пространстве поз во время процесса диффузионного денойзинга, обеспечивая точные и физически правдоподобные результаты каждый раз.

Почему стоит выбрать Kimodo?

Беспрецедентный масштаб обучения

Kimodo обучена на 700+ часах профессиональных студийных данных захвата движений — примерно в 25 раз больше, чем у конкурирующих моделей вроде MDM, MotionDiffuse или MoMask. Такой масштаб обучения обеспечивает превосходное качество движений, большее разнообразие и лучшую генерализацию на новые и сложные текстовые промпты.

Встроенная управляемость

В отличие от подходов в латентном пространстве, требующих дорогостоящей оптимизации во время инференса, Kimodo работает непосредственно в явном пространстве поз. Кинематические ограничения, включая ключевые кадры, концевые эффекторы, путевые точки и плотные траектории, применяются нативно на каждом шаге диффузии для точного, надёжного и безартефактного управления.

Поддержка нескольких скелетов

Генерируйте движения для цифровых персонажей с использованием моделей тела SOMA или SMPL-X, а также для гуманоидных роботов с использованием скелета Unitree G1 — всё это в рамках семейства моделей Kimodo. Экспортируйте в форматах NPZ, MuJoCo CSV или AMASS для бесшовной интеграции в пайплайны анимации, симуляции и робототехники.

Открытый код и коммерческое использование

Чекпоинты моделей SOMA и G1 выпущены под лицензией NVIDIA Open Model License, допускающей как академические исследования, так и коммерческое развёртывание. Бесплатное демо на HuggingFace Spaces позволяет любому попробовать Kimodo прямо в браузере — без GPU и установки.

Как работает Kimodo

От текстового промпта до 3D-движения за три простых шага

Шаг 1

Опишите движение

Напишите промпт на естественном языке, например «человек идёт вперёд, поднимает коробку и разворачивается». При необходимости добавьте кинематические ограничения — ключевые кадры поз, целевые положения концевых эффекторов или 2D-траектории для точного пространственного управления генерируемым движением.

Шаг 2

Генерация диффузией

Двухэтапный трансформер-денойзер Kimodo обрабатывает ваш запрос. Сначала корневой денойзер предсказывает глобальную траекторию, затем телесный денойзер генерирует детальное движение суставов. Весь процесс занимает всего 2–5 секунд на RTX 3090.

Шаг 3

Экспорт и интеграция

Скачайте сгенерированное движение в формате NPZ для общего использования, MuJoCo CSV для робототехнической симуляции в инструментах вроде ProtoMotions или в формате AMASS для совместимости с существующими пайплайнами анимации и исследований. Используйте интерактивный интерфейс временной шкалы для доработки, итераций и экспорта нескольких вариаций.

Kimodo Смотрите в действии

Интерактивное демо Kimodo предоставляет интуитивный интерфейс временной шкалы для создания сложных движений с текстовыми промптами и кинематическими ограничениями. Просматривайте результаты в 3D-визуализации в реальном времени, сравнивайте несколько сэмплов бок о бок, переключайтесь между персонажами SOMA и G1 и экспортируйте движения прямо из браузера.

Доступные модели Kimodo

Часть экосистемы Motion AI от NVIDIA для физического ИИ и робототехники

ProtoMotions

Ускоренный на GPU фреймворк симуляции и обучения физически симулируемых гуманоидов с использованием данных движений, сгенерированных Kimodo

Модель тела SOMA

Унифицированная параметрическая модель тела человека, выступающая в качестве основного представления скелета Kimodo

Датасет BONES-SEED

Крупномасштабный общедоступный датасет захвата движений человека в форматах SOMA и G1 для воспроизводимых исследований

GEM

Дополнительная модель диффузии движений, восстанавливающая 3D-движения из монокулярного видео

GEAR SONIC

Базовая модель поведения гуманоида, использующая движения Kimodo в качестве демонстраций для обучения политик физических роботов

SOMA Retargeter

Инструмент физического ретаргетинга на основе Newton для преобразования движений SOMA в скелет робота Unitree G1

Часто задаваемые вопросы

Цитирование

@article{Kimodo2026,
  title={Kimodo: Scaling Controllable Human Motion Generation},
  author={Rempe, Davis and Petrovich, Mathis and Yuan, Ye and Zhang, Haotian and Peng, Xue Bin and Jiang, Yifeng and Wang, Tingwu and Iqbal, Umar and Minor, David and de Ruyter, Michael and Li, Jiefeng and Tessler, Chen and Lim, Edy and Jeong, Eugene and Wu, Sam and Hassani, Ehsan and Huang, Michael and Yu, Jin-Bey and Chung, Chaeyeon and Song, Lina and Dionne, Olivier and Kautz, Jan and Yuen, Simon and Fidler, Sanja},
  journal={arXiv},
  year={2026}
}