Agentic OS 技術スタックを下から読む 第10回:世界モデルとは何か ―― 次の「状態」を予測し、想像の中で試す
第8回では、モデルに考える力をどう鍛えるかを見た。第9回では、答えを出す時間に計算を足すことで、推論を強くする考え方を見た。
言葉で考える力の、その先へ
第8回では、モデルに考える力をどう鍛えるかを見た。第9回では、答えを出す時間に計算を足すことで、推論を強くする考え方を見た。
どちらも中心にあったのは、言葉で考える力だった。
問題を読む。手順を立てる。途中の考えを展開する。別の可能性を比べる。最後に答える。これは、言語モデルが得意になってきた方向である。
だが、エージェントが相手にする世界は、言葉だけでできているわけではない。
画面のボタンを押す。ファイルを動かす。道具を使う。物をつかむ。引く。置く。離す。そうした行動には、結果がある。しかも結果は、説明文として返ってくるとは限らない。画面が変わる。物の位置が変わる。状態が変わる。
このとき欲しくなるのは、手を出す前の予測である。
このボタンを押したら、次に何が起きるか。
この方向に動かしたら、物はどう動くか。
この手順で進めたら、あとで詰まらないか。
現実で試す前に、頭の中で続きを見たい。
この「行動の結果を予測する内部のモデル」が、世界モデルと呼ばれるものである。
次のトークンではなく、次の状態を予測する
言語モデルは、基本的には次に来るトークンを予測する。トークンとは、文章を細かく分けた単位である。実際の単語と完全に同じではないが、ここでは「次の言葉のかけら」と考えればよい。
文章のここまでを見て、次に何が来るかを予測する。その予測を繰り返すことで、長い文章が生成される。
世界モデルが予測したいものは、それとは少し違う。
ある状態がある。そこに、ある行動を加える。そのとき、世界は次にどんな状態になるか。世界モデルが見積もるのは、この続きである。
たとえば、机の上にコップがある。手が右から近づく。コップに触れる。押す。では、次に何が起きるか。コップは滑るのか、倒れるのか、ほとんど動かないのか。中身があれば、こぼれるのか。
この予測は、文章で返ってきてもよい。だが本質は文章ではない。映像として次の場面が進んでもよいし、モデルの内部にある状態表現として進んでもよい。大事なのは、世界の続きを予測していることだ。
ここでいう世界とは、必ずしも物理空間だけではない。画面上の操作環境も、ゲームのような仮想環境も、状態があり、行動によって変わるなら、同じ考え方で扱える。
つまり世界モデルとは、「世界を説明する文章を作るモデル」ではない。「それらしい映像を作るモデル」でもない。
現在の状態と行動を受け取り、次の状態を見積もるモデルである。
この違いは小さく見えるが、エージェントにとっては大きい。なぜなら、エージェントは答えるだけでなく、行動するからである。
綺麗な映像は、世界モデルではない
ここは誤解しやすい。
とてもリアルな動画を生成できるモデルがあるとする。光の反射も自然で、物の質感もきれいで、人間の動きもなめらかに見える。では、それは世界モデルなのか。
必ずしもそうではない。
見た目が本物らしいことと、世界の続きを予測できることは同じではない。映画は非常にリアルに見えるが、こちらが途中で行動しても筋は変わらない。画面の中の物を押すこともできない。押した結果に応じて続きが分岐することもない。
世界モデルと呼ぶには、少なくとも二つの硬い条件が要る。
一つ目は、時間が前に進むことである。
今までの状態を見て、次を出す。次を出したら、それを踏まえてさらに次を出す。未来の場面を先に全部見てから、つじつまが合うように並べるのではない。
これは因果の向きに関わる。現実では、未来は過去を変えない。手元にあるのは、今までに観測したものだけである。そこから次を予測する必要がある。
二つ目は、こちらの行動にその場で応答することである。
同じ場面でも、右に押せば右に動くかもしれない。上に持ち上げれば机から離れるかもしれない。何もしなければ、そのままかもしれない。行動が違えば、続きも違う。この関係を扱えなければ、エージェントのためのモデルにはならない。
時間が前に流れること。行動に応じて続きが変わること。
この二つがないなら、それは入力に反応するシミュレータではなく、決まった筋を再生する映像に近い。
もちろん、これだけで十分というわけではない。
どれくらい長く一貫性を保てるか。どれくらい速く次の状態を出せるか。物理の細部がどれくらい正しいか。見たことのない場面にどれくらい対応できるか。これらはすべて重要である。
ただし、これらは「あるかないか」ではなく「どの程度できるか」の問題である。世界モデルという考え方の芯は、まず状態と行動から次の状態を予測するところにある。
なぜ効くのか
世界モデルの値打ちは、現実で試す前に、想像の中で試せることにある。
人間も似たことをしている。
熱そうな鍋に素手で触る前に、危ないと予測する。棚の端に置いたコップを押せば落ちると予測する。狭い場所で椅子を引けば、後ろにぶつかるかもしれないと予測する。
もちろん、人間の予測は完璧ではない。それでも、毎回すべてを現実で試しているわけではない。かなりの部分を、頭の中で先に試している。
エージェントにも同じことが必要になる。
物理的な世界では、失敗の代償が大きい。物を壊す。液体をこぼす。落とす。ぶつける。やり直しがきかない。危険を伴うこともある。
画面操作でも、代償はある。間違ったボタンを押す。設定を変える。不要な注文を出す。データを消す。外部に送信する。あとから戻せる場合もあるが、毎回そうとは限らない。
だから、実際に動く前に、候補を比べたい。
この操作をしたらどうなるか。
別の順序ならどうなるか。
いま実行するより、先に確認したほうがよいか。
世界モデルがあれば、エージェントは現実の一回の試行から、より多くの練習を引き出せる。現実で得た経験をもとに、内部で何通りもの続きを想像し、良さそうな手を選べる。
これは、言葉で考える力とは別の種類の「先を読む力」である。
言語の推論は、手順や意味や目的を扱うのに強い。世界モデルの予測は、状態の変化を扱うのに強い。どちらも未来を読むが、読んでいるものが違う。
二つの流れが合流しはじめた
世界モデルという考え方には、長く別々に育ってきた二つの流れがある。
一つは、環境の動きを学び、その内部モデルの中で試しながら行動を選ぶ流れである。
この流れでは、エージェントは現実の環境で経験を集める。ある状態で、ある行動をとる。すると結果が返る。その関係を学ぶ。学んだ内部モデルを使って、次は頭の中でいくつかの行動を試す。
これは、行動と結果の結びつきを正面から扱う。だからエージェントには向いている。
一方で、弱点もあった。特定の環境ではうまくいっても、別の環境に移ると弱い。狭い世界の中で学んだ予測は、広い現実にそのまま通用しにくい。
もう一つは、大量の映像から世界の規則を学ぶ流れである。
人間の動き、物の落下、接触、変形、光、カメラの動き。そうしたものを大量に見ると、モデルは見た目の世界について多くを学ぶ。物は急に消えにくい。押されれば動きやすい。重力がある。硬い物は形を保ちやすい。柔らかい物は曲がる。
この流れは、規模と写実性に強い。多くの場面を見ているため、見た目の多様さに対応しやすい。
ただし、こちらにも弱点があった。映像の続きを作れても、こちらの行動に応じて続きを変えるとは限らない。見ているだけなら、エージェントが何をするかという入力がない。だから、そのままでは行動選択に使いにくい。
最近、この二つが近づきはじめている。
考え方としては、行動と結果の関係を学ぶ流れを継いでいる。作り方としては、大量の映像から世界の規則を学ぶ流れに支えられている。つまり、広い視覚経験を持ちながら、行動に応じて次の場面を変えられるモデルを目指している。
これはまだ完成した技術ではない。だが方向としては自然である。
エージェントに必要なのは、ただ見ることでも、ただ話すことでもない。見て、考えて、動き、その結果をまた見ることである。世界モデルは、その輪の中に入る。
まだ早い
ここで、期待を少し冷ましておく必要がある。
世界モデルという言葉は強い。名前だけを聞くと、世界の仕組みをまるごと理解したモデルのように感じる。しかし現実には、まだそこまで来ていない。
決まった作業なら、うまく扱える場面は増えている。環境が限定され、目的が明確で、入力と出力の範囲が狭ければ、予測も行動選択もやりやすい。
だが、見たことのない一般的な操作を、広い環境で安定して解くことは、まだ簡単ではない。
物理は細かい。摩擦、重さ、形、素材、隠れて見えない部分、手先のずれ。画面操作も細かい。状態遷移、権限、遅延、例外、確認ダイアログ、外部サービスの変化。少し条件が変わるだけで、予測は外れる。
また、外から見ただけでは、本当に内部で因果的な予測をしているのか、それとも見た目としてそれらしくつないでいるだけなのか、判断しにくい場合がある。検証されていない主張も多い。
だから、世界モデルを万能の突破口として見るのは早い。
むしろ、いま見るべきなのは、その位置づけである。世界モデルは、言語モデルを置き換えるものではない。競合というより、補完である。
言葉で目的を分解する。手順を立てる。制約を読む。ユーザーの意図を理解する。これは言語モデルの側が担いやすい。
一方で、その手順を実際に行ったら環境がどう変わるかを予測する。候補となる行動を内部で試す。失敗しそうな手を避ける。これは世界モデルの側が担いやすい。
エージェントは、この二つを組み合わせる方向に進む。
言葉で計画し、世界の続きを想像し、結果を比べ、実行する。そして実行後の状態を見て、また考え直す。
この往復が、行動するシステムには必要になる。
Agentic OS への含意
ここまで L2 のモデル層では、主に言葉を扱うモデルを見てきた。
第8回では、考える力を訓練でどう伸ばすかを見た。第9回では、答える時間に計算を足し、その場でよりよく考える方法を見た。
今回の世界モデルは、同じモデル層にあるが、向いている方向が違う。
言語モデルは、言葉の続きを予測する。世界モデルは、世界の続きを予測する。
エージェントが文章の中だけで完結するなら、前者でかなり進める。調べる。要約する。比較する。計画を書く。コードを書く。こうした作業では、言語の力が中心になる。
しかし、エージェントが環境に手を出すほど、後者が必要になる。
ボタンを押す。設定を変える。道具を操作する。物を動かす。外部システムに影響を与える。こうした場面では、次の言葉だけでなく、次の状態を読まなければならない。
あとで扱う計画の層が、「いくつかの手を考え、結果を見比べて選ぶ」形をとるなら、その想像を供給するのが世界モデルである。
もちろん、すべてのエージェントに高度な世界モデルが必要なわけではない。文章処理だけをするエージェントなら、言語モデル中心でよい。画面操作でも、十分に単純な作業なら、状態の記録とルールで足りることがある。
だが、環境が複雑になり、失敗の代償が大きくなり、行動の候補を事前に比べる必要が出てくるほど、世界モデルの意味は大きくなる。
モデル層には、二つの顔がある。
一つは、言葉の続きを予測する顔。
もう一つは、世界の続きを予測する顔。
Agentic OS を下から読むとき、この区別は重要である。エージェントは、ただ賢く答えるだけの仕組みではない。状態を持つ環境の中で、行動し、結果を受け取り、また行動する仕組みである。
そのための土台として、モデル層には言語の知能だけでなく、状態変化を予測する知能も必要になる。
ここまでで、L2 モデル層を、効率と能力の両面から見てきた。次は一つ上に進む。モデルを実際に走らせ、状態と記憶を抱え、エージェントの実行を支える運行時の層である。
← 一覧へ