Kimodo

NVIDIAのオープンソース運動学的モーション拡散モデル — テキストから制御可能な3D人体・ロボットモーションを生成

700hrsモーションキャプチャ人体 + ロボットテキストtoモーションオープンソース

Kimodo とは?

Kimodo(Kinematic Motion Diffusion)は、NVIDIA Research が開発したオープンソースの3Dモーション生成モデルです。独自の2段階トランスフォーマー拡散アーキテクチャに基づき、シンプルなテキスト記述や精密な運動学的制約から高品質な人体・ロボットモーションを生成します。単一GPUでわずか2〜5秒で完了します。

Bones Rigplay データセットの700時間を超えるプロフェッショナル光学モーションキャプチャデータで学習された Kimodo は、現在利用可能な最大規模の制御可能モーション拡散モデルです。MDM や MotionDiffuse などの先行モデルと比較して約25倍の学習データを使用しています。2段階のデノイザーがルート軌道予測とボディモーション生成を分離することで、他のモーション生成手法に見られる浮遊やフットスケーティングなどの一般的なアーティファクトを効果的に低減します。

Kimodo は3つのスケルトン形式をサポートしています:NVIDIAの SOMA パラメトリック人体モデル、Unitree G1 ヒューマノイドロボット、および広く使われている SMPL-X モデルです。すべての SOMA および G1 モデルは NVIDIA オープンモデルライセンスのもとで公開されており、研究および商用の両方で自由に利用できます。アニメーションパイプラインの構築、ロボットポリシーの学習、インタラクティブキャラクターのプロトタイピングなど、Kimodo はテキストプロンプトの速度でプロダクション品質のモーションを提供します。

Kimodo でできること

Kimodo テキストtoモーション

自然言語プロンプトから高品質な3D人体モーションを生成します。「人が前に歩いてからジャンプを始める」といった動きを説明するだけで、Kimodo が数秒でリアルに再現します。複数のテキストプロンプトをタイムライン上に配置して、滑らかなトランジションを持つ複雑なマルチフェーズモーションシーケンスを作成できます。

人体 + ロボットスケルトン

Kimodo は3つのスケルトン形式をサポートしています:プロダクション向けの NVIDIA SOMA パラメトリック人体モデル、ロボティクス向けの Unitree G1 ヒューマノイドロボットスケルトン、そして AMASS などの既存のモーションキャプチャ・アニメーションパイプラインとの完全な互換性を持つ SMPL-X です。

Kimodo 運動学的コントロール

全身キーフレーム、エンドエフェクターの位置と回転、2Dウェイポイント、密な2Dグラウンドパスによる精密な空間的・時間的制御が可能です。Kimodo は拡散デノイジングプロセス中にすべての制約をポーズ空間で直接適用し、毎回正確で物理的に妥当な結果を保証します。

なぜ Kimodo を選ぶのか?

前例のない学習スケール

Kimodo は700時間以上のプロフェッショナルスタジオモーションキャプチャデータで学習されており、MDM、MotionDiffuse、MoMask などの競合モデルの約25倍です。この大規模な学習により、優れたモーション品質、高い多様性、そして新しく複雑なテキストプロンプトへの強力な汎化性能を実現しています。

ネイティブな制御性

高コストなテスト時最適化を必要とする潜在空間アプローチとは異なり、Kimodo は明示的なポーズ空間で直接動作します。キーフレーム、エンドエフェクター、ウェイポイント、密なパスなどの運動学的制約が、各拡散ステップ中にネイティブに適用され、正確で信頼性の高い、アーティファクトのない制御を実現します。

マルチスケルトン対応

SOMA または SMPL-X ボディモデルを使用したデジタルヒューマンキャラクター、Unitree G1 スケルトンを使用したヒューマノイドロボットのモーションを、すべて Kimodo モデルファミリーから生成できます。NPZ、MuJoCo CSV、AMASS フォーマットで出力し、アニメーション、シミュレーション、ロボティクスパイプラインにシームレスに統合できます。

オープンソース&商用利用可能

SOMA および G1 モデルチェックポイントは NVIDIA オープンモデルライセンスのもとで公開されており、学術研究と商用展開の両方が許可されています。無料の HuggingFace Spaces デモにより、GPU やインストール不要で誰でもブラウザから Kimodo をすぐに試すことができます。

Kimodo の仕組み

テキストプロンプトから3Dモーションまで、3つのシンプルなステップ

ステップ 1

モーションを記述する

「人が前に歩き、箱を拾い、振り返る」のような自然言語プロンプトを入力します。必要に応じて、キーフレームポーズ、エンドエフェクターターゲット、2Dグラウンドパスなどの運動学的制約を追加して、生成されるモーションの空間的な制御を精密に行うことができます。

ステップ 2

拡散モデルで生成

Kimodo の2段階トランスフォーマーデノイザーが入力を処理します。まずルートデノイザーがグローバル軌道を予測し、次にボディデノイザーが詳細な関節モーションを生成します。全プロセスは RTX 3090 でわずか2〜5秒で完了します。

ステップ 3

エクスポート&統合

生成されたモーションを、汎用の NPZ、ProtoMotions などのロボティクスシミュレーション向け MuJoCo CSV、既存のアニメーション・研究パイプラインとの互換性を持つ AMASS フォーマットでダウンロードできます。インタラクティブなタイムラインUIを使って、調整・反復・複数バリエーションのエクスポートが可能です。

Kimodo 実際の動作を見る

Kimodo のインタラクティブデモは、テキストプロンプトと運動学的制約を使って複雑なモーションを作成するための直感的なタイムラインインターフェースを提供します。リアルタイム3Dビジュアライゼーションで生成結果をプレビューし、複数のサンプルを並べて比較し、SOMA と G1 キャラクターを切り替え、ブラウザから直接モーションをエクスポートできます。

よくある質問

引用

@article{Kimodo2026,
  title={Kimodo: Scaling Controllable Human Motion Generation},
  author={Rempe, Davis and Petrovich, Mathis and Yuan, Ye and Zhang, Haotian and Peng, Xue Bin and Jiang, Yifeng and Wang, Tingwu and Iqbal, Umar and Minor, David and de Ruyter, Michael and Li, Jiefeng and Tessler, Chen and Lim, Edy and Jeong, Eugene and Wu, Sam and Hassani, Ehsan and Huang, Michael and Yu, Jin-Bey and Chung, Chaeyeon and Song, Lina and Dionne, Olivier and Kautz, Jan and Yuen, Simon and Fidler, Sanja},
  journal={arXiv},
  year={2026}
}