ロボット・マルチモーダル深掘り2分で読めます

中国の「世界モデル」が一人用から多人数へ ―― NVIDIA×清華のGamma-World

この記事の読み方
一人用から多人数へ広がる世界モデルの意味を、NVIDIA×清華の研究から読む。

ひとつのAIが作り出す仮想世界の中で、複数の人が同時に動き回り、しかもお互いの行動にちゃんと反応する。NVIDIAと清華大学のチームが出してきた Gamma-World は、そういうものです。

これまでの動画ベースの世界モデルは、ほとんどが「一人プレイ」前提でした。カメラ一台ぶんの視点について、次に何が映るかを予測する。それはそれで難しいのですが、人が二人以上になった瞬間に話が変わります。時間的に破綻しないこと、別々の視点で見ても矛盾しないこと、お互いの動作が噛み合うこと ―― この三つを同時に成立させるのが、とにかく難しい。

何が新しいのか

Gamma-Worldの工夫は、ざっくり三つです。

ひとつめ、Simplex Rotary Agent Encoding。N人のエージェントを「単体（シンプレックス）」の頂点に幾何学的に配置する発想で、1番・2番…と番号で区別しないため、番号の付け方による偏りが出ません。

ふたつめ、Sparse Hub Attention。全員が共有する「ハブ」を一つ置くことで、エージェント間の総当たり計算（人数の二乗で増えるやつ）を、人数に比例する程度まで軽くしています。

みっつめ、三段階の蒸留。自己回帰的な拡散から一貫性のモデル化、さらに分布マッチングへと段階を踏んで、推論をたった4ステップまで圧縮し、24 FPS のストリーミング生成を実現しています。

そして個人的にいちばん効いていると思うのが、二人ぶんのデータで学習したのに、ゼロショットで四人の同時視点まで広がったという点。幾何学的なエンコードがちゃんとスケールする証拠で、設計の筋の良さが出ています。

個人的な見方

これは、世界モデルが「一人用のゲーム録画機」から「みんなで使える共有の砂場」へ移ろうとしている流れだと見ています。

これまでの多くの動画世界モデルは、ある一つの視点について「次にこう見えるはず」を当てているだけでした。Gamma-Worldはむしろ、共通の世界の状態をモデルに保持させて、それを各人の目から描き直させている。発想の向きが逆なんです。

この方向は、複数人での協調作業、ロボットの多体協調、さらにはリアルタイムの大規模シミュレーションまで、けっこう広い範囲で土台になり得ます。中国の大学とNVIDIAが組んでここに踏み込んでいる、という事実も含めて、覚えておく価値があると思います。

―― AI未来編集室「AIウォッチ」

← 一覧へ

中国の「世界モデル」が一人用から多人数へ ―― NVIDIA×清華のGamma-World

何が新しいのか

個人的な見方

関連記事