Kimodo

NVIDIA의 오픈소스 운동학적 모션 확산 모델 — 텍스트로 제어 가능한 3D 인체 및 로봇 모션 생성

700hrs 모캡인체 + 로봇텍스트-to-모션오픈소스

Kimodo란 무엇인가?

Kimodo(Kinematic Motion Diffusion)는 NVIDIA Research에서 개발한 오픈소스 3D 모션 생성 모델입니다. 새로운 2단계 트랜스포머 확산 아키텍처를 기반으로, Kimodo는 간단한 텍스트 설명이나 정밀한 운동학적 제약 조건으로부터 고품질 인체 및 로봇 모션을 단일 GPU에서 2~5초 만에 생성합니다.

Bones Rigplay 데이터셋의 700시간 이상의 전문 광학 모션 캡처 데이터로 학습된 Kimodo는 현재 이용 가능한 가장 대규모의 제어 가능한 모션 확산 모델로, MDM이나 MotionDiffuse 같은 기존 모델 대비 약 25배 많은 학습 데이터를 활용합니다. 2단계 디노이저가 루트 궤적 예측과 신체 모션 생성을 분리하여, 다른 모션 생성 접근법에서 흔히 발생하는 플로팅이나 발 미끄러짐 같은 아티팩트를 효과적으로 최소화합니다.

Kimodo는 세 가지 스켈레톤 형식을 지원합니다: NVIDIA의 SOMA 파라메트릭 인체 모델, Unitree G1 휴머노이드 로봇, 그리고 널리 사용되는 SMPL-X 모델. 모든 SOMA 및 G1 모델은 NVIDIA 오픈 모델 라이선스로 공개되어 연구와 상업적 용도 모두에 자유롭게 사용할 수 있습니다. 애니메이션 파이프라인 구축, 로봇 정책 학습, 인터랙티브 캐릭터 프로토타이핑 등 어떤 목적이든 Kimodo는 텍스트 프롬프트 속도로 프로덕션급 모션을 제공합니다.

Kimodo가 할 수 있는 것

Kimodo 텍스트-to-모션

자연어 프롬프트에서 고품질 3D 인체 모션을 생성합니다. "사람이 앞으로 걷다가 점프를 시작한다"와 같은 동작을 설명하면 Kimodo가 수초 만에 생생하게 재현합니다. 타임라인에 여러 텍스트 프롬프트를 배치하여 각 동작 간 부드러운 전환이 있는 복잡한 다단계 모션 시퀀스를 제작할 수 있습니다.

인체 + 로봇 스켈레톤

Kimodo는 세 가지 스켈레톤 형식을 지원합니다: 프로덕션용 NVIDIA SOMA 파라메트릭 인체 모델, 로보틱스 응용을 위한 Unitree G1 휴머노이드 로봇 스켈레톤, 그리고 AMASS 등 기존 모션 캡처 및 애니메이션 파이프라인과 완벽히 호환되는 SMPL-X.

Kimodo 운동학적 제어

전신 키프레임, 엔드 이펙터 위치 및 회전, 2D 웨이포인트, 밀도 높은 2D 지면 경로를 통한 세밀한 공간 및 시간 제어가 가능합니다. Kimodo는 확산 디노이징 과정에서 모든 제약 조건을 포즈 공간에 직접 적용하여, 매번 정밀하고 물리적으로 타당한 결과를 보장합니다.

왜 Kimodo를 선택해야 할까요?

전례 없는 학습 규모

Kimodo는 700시간 이상의 전문 스튜디오 모션 캡처 데이터로 학습되었습니다 — MDM, MotionDiffuse, MoMask 등 경쟁 모델 대비 약 25배 규모입니다. 이 대규모 학습은 우수한 모션 품질, 더 큰 다양성, 그리고 새롭고 복잡한 텍스트 프롬프트에 대한 강력한 일반화 성능을 제공합니다.

네이티브 제어 가능성

비용이 많이 드는 테스트 시점 최적화가 필요한 잠재 공간 접근법과 달리, Kimodo는 명시적 포즈 공간에서 직접 동작합니다. 키프레임, 엔드 이펙터, 웨이포인트, 밀도 높은 경로 등 운동학적 제약 조건이 각 확산 단계에서 네이티브로 적용되어 정밀하고 신뢰할 수 있는 아티팩트 없는 제어를 실현합니다.

멀티 스켈레톤 지원

SOMA 또는 SMPL-X 바디 모델을 사용한 디지털 휴먼 캐릭터와 Unitree G1 스켈레톤을 사용한 휴머노이드 로봇 모두를 위한 모션을 Kimodo 모델 패밀리에서 생성할 수 있습니다. NPZ, MuJoCo CSV, AMASS 포맷으로 내보내어 애니메이션, 시뮬레이션, 로보틱스 파이프라인에 원활하게 통합하세요.

오픈소스 및 상업적 활용 가능

SOMA 및 G1 모델 체크포인트는 NVIDIA 오픈 모델 라이선스로 공개되어 학술 연구와 상업적 배포 모두 허용됩니다. 무료 HuggingFace Spaces 데모를 통해 누구나 브라우저에서 즉시 Kimodo를 체험할 수 있습니다 — GPU나 설치가 필요 없습니다.

Kimodo 작동 방식

텍스트 프롬프트에서 3D 모션까지 세 가지 간단한 단계

1단계

모션 설명하기

"사람이 앞으로 걸어가서 상자를 집고 뒤돌아선다"와 같은 자연어 프롬프트를 작성하세요. 선택적으로 키프레임 포즈, 엔드 이펙터 타겟, 2D 지면 경로 등의 운동학적 제약 조건을 추가하여 생성되는 모션의 공간 제어를 정밀하게 할 수 있습니다.

2단계

확산으로 생성하기

Kimodo의 2단계 트랜스포머 디노이저가 입력을 처리합니다. 루트 디노이저가 먼저 글로벌 궤적을 예측한 후, 바디 디노이저가 상세한 관절 모션을 생성합니다. 전체 과정은 RTX 3090에서 2~5초면 완료됩니다.

3단계

내보내기 및 통합

생성된 모션을 범용 NPZ, ProtoMotions 같은 도구에서의 로보틱스 시뮬레이션용 MuJoCo CSV, 기존 애니메이션 및 연구 파이프라인과 호환되는 AMASS 포맷으로 다운로드하세요. 인터랙티브 타임라인 UI를 사용하여 다듬고, 반복하고, 여러 변형을 내보낼 수 있습니다.

Kimodo 실제 동작 보기

Kimodo 인터랙티브 데모는 텍스트 프롬프트와 운동학적 제약 조건으로 복잡한 모션을 제작하는 직관적인 타임라인 인터페이스를 제공합니다. 실시간 3D 시각화로 생성 결과를 미리 보고, 여러 샘플을 나란히 비교하고, SOMA와 G1 캐릭터를 전환하고, 브라우저에서 직접 모션을 내보낼 수 있습니다.

자주 묻는 질문

인용

@article{Kimodo2026,
  title={Kimodo: Scaling Controllable Human Motion Generation},
  author={Rempe, Davis and Petrovich, Mathis and Yuan, Ye and Zhang, Haotian and Peng, Xue Bin and Jiang, Yifeng and Wang, Tingwu and Iqbal, Umar and Minor, David and de Ruyter, Michael and Li, Jiefeng and Tessler, Chen and Lim, Edy and Jeong, Eugene and Wu, Sam and Hassani, Ehsan and Huang, Michael and Yu, Jin-Bey and Chung, Chaeyeon and Song, Lina and Dionne, Olivier and Kautz, Jan and Yuen, Simon and Fidler, Sanja},
  journal={arXiv},
  year={2026}
}