中国の「世界モデル」が一人用から多人数へ ―― NVIDIA×清華のGamma-World
一人用から多人数へ広がる世界モデルの意味を、NVIDIA×清華の研究から読む。
ひとつのAIが作り出す仮想世界の中で、複数の人が同時に動き回り、しかもお互いの行動にちゃんと反応する。NVIDIAと清華大学のチームが出してきた Gamma-World は、そういうものです。
これまでの動画ベースの世界モデルは、ほとんどが「一人プレイ」前提でした。カメラ一台ぶんの視点について、次に何が映るかを予測する。それはそれで難しいのですが、人が二人以上になった瞬間に話が変わります。時間的に破綻しないこと、別々の視点で見ても矛盾しないこと、お互いの動作が噛み合うこと ―― この三つを同時に成立させるのが、とにかく難しい。
何が新しいのか
Gamma-Worldの工夫は、ざっくり三つです。
ひとつめ、Simplex Rotary Agent Encoding。N人のエージェントを「単体(シンプレックス)」の頂点に幾何学的に配置する発想で、1番・2番…と番号で区別しないため、番号の付け方による偏りが出ません。
ふたつめ、Sparse Hub Attention。全員が共有する「ハブ」を一つ置くことで、エージェント間の総当たり計算(人数の二乗で増えるやつ)を、人数に比例する程度まで軽くしています。
みっつめ、三段階の蒸留。自己回帰的な拡散から一貫性のモデル化、さらに分布マッチングへと段階を踏んで、推論をたった4ステップまで圧縮し、24 FPS のストリーミング生成を実現しています。
そして個人的にいちばん効いていると思うのが、二人ぶんのデータで学習したのに、ゼロショットで四人の同時視点まで広がったという点。幾何学的なエンコードがちゃんとスケールする証拠で、設計の筋の良さが出ています。
個人的な見方
これは、世界モデルが「一人用のゲーム録画機」から「みんなで使える共有の砂場」へ移ろうとしている流れだと見ています。
これまでの多くの動画世界モデルは、ある一つの視点について「次にこう見えるはず」を当てているだけでした。Gamma-Worldはむしろ、共通の世界の状態をモデルに保持させて、それを各人の目から描き直させている。発想の向きが逆なんです。
この方向は、複数人での協調作業、ロボットの多体協調、さらにはリアルタイムの大規模シミュレーションまで、けっこう広い範囲で土台になり得ます。中国の大学とNVIDIAが組んでここに踏み込んでいる、という事実も含めて、覚えておく価値があると思います。
―― AI未来編集室「AIウォッチ」
← 一覧へ