← 一覧へ
連載 Agentic OS:技術スタックを下から読む の一部です ―― 目次を見る →

Agentic OS 技術スタックを下から読む 補講(9):ご褒美で、振る舞いを変える ―― 試して・測って・少しだけ寄せる環

この記事の読み方
前回は、道を選ぶ門を見ました。問いが来たとき、どの専門家へ渡すか。その分かれ道を扱いました。

Agentic OS 技術スタックを下から読む 補講(9):ご褒美で、振る舞いを変える ―― 試して・測って・少しだけ寄せる環

続・底へ ―― ご褒美で振る舞いを変える

前回は、道を選ぶ門を見ました。問いが来たとき、どの専門家へ渡すか。その分かれ道を扱いました。

今回は、その道を含む、モデルそのものを鍛える側へ降ります。

前に、確かめられるご褒美を見ました。答えが合っているかを、機械で確かめられる場合です。第8回の話です。

また、確かめられない好みのご褒美も見ました。人が好む答えに近いかを、代わりの測り手で点にする場合です。第41回の話です。

良い答えには高く、悪い答えには低く、点を付ける。そこまでは見ました。

けれども、その点が、どうやってモデルの振る舞いを変えるのか。そこはまだ開いていませんでした。

今回は、その環を一周、回してみます。

まず、試しに作らせる

環は、今のモデルに、まず答えを作らせるところから始まります。

一つの問いを入れます。そこで、一通りだけ出させるのではありません。何通りも出させます。

同じ問いでも、少しずつ違う答えが出ます。短く答えるものもあります。理由を長く並べるものもあります。先に結論を言うものもあります。途中で迷うものもあります。

これは、今のモデルが持っている手の幅を見るためです。

まだ、この時点では良し悪しを決めません。ただ、出させます。今の自分なら、どんな答えを出しうるのか。それを横に並べます。

ここで大事なのは、失敗も含めて出させることです。良い答えだけを拾うのではありません。悪い答えも、半端な答えも、混ぜて並べます。そうしないと、どの手を下げればよいかが見えないからです。

出したものに、ご褒美を測る

次に、出した答えのそれぞれに、ご褒美を測ります。

問いに正解があるなら、機械で確かめます。計算が合っているか。条件を満たしているか。禁止された形を踏んでいないか。こうしたものは、外から検査できます。

問いに正解が一つでないなら、別の測り手を置きます。読みやすいか。役に立つか。余計なことをしていないか。人が良いと感じる答えに近いか。そういう見立てを、点にします。

すると、同じ問いから出た何通りもの答えに、それぞれ点が付きます。

ここで初めて、並べた答えに差が生まれます。ある答えは高い。ある答えは低い。中くらいのものもある。

この差が、次の更新の材料になります。

良い手を上げ、悪い手を下げる

ここが、環の心臓です。

同じ問いに対して出した複数の答えを、互いに比べます。外の絶対的な物差しだけを見るのではありません。その問いの中で、平均より上か下かを見ます。

平均よりご褒美が高かった出し方は、良い手です。平均より低かった出し方は、悪い手です。

そして、良い手を出した道筋の確率を、少し上げます。次に似た場面が来たとき、その手を選びやすくします。

反対に、悪い手を出した道筋の確率を、少し下げます。次に似た場面が来たとき、その手を選びにくくします。

ここで言う確率とは、次の言葉や次の判断を選ぶ傾きです。モデルは、答えを一文字ずつ、または小さなまとまりごとに選んでいきます。その選び方には、もともと濃淡があります。ある続きは出やすい。別の続きは出にくい。

後訓練では、この濃淡をほんの少し塗り替えます。

良い点に結びついた続きは、少し濃くします。悪い点に結びついた続きは、少し薄くします。

これを、問いを変えながら何度も繰り返します。

試す。測る。平均と比べる。良い手を上げる。悪い手を下げる。少しだけ寄せる。

この一周をぐるぐる回すことで、モデルの振る舞いは、ご褒美の高いほうへ、じわじわ動いていきます。

なぜ、少しだけなのか

では、なぜ少しだけなのでしょうか。

高い点の答えが見つかったなら、その手へ一気に寄せればよさそうに見えます。けれども、それをやると崩れます。

一つの問いで効いた手が、別の問いでも効くとは限りません。ある場面では、長く説明したから点が上がったかもしれません。しかし、別の場面では、短く答えるほうがよいかもしれません。

一つの狭い場所で勝った手を強く焼き付けると、広い場所で使えていた力を壊します。点を稼いだつもりで、引き出しを減らしてしまいます。

だから、元のモデルから離れすぎないように、手綱を引きます。

更新の前と後で、振る舞いがどれだけ変わったかを見ます。変わりすぎたら、そこにこらえを効かせます。ご褒美の高いほうへ寄せたい。けれども、元の広い力を壊したくない。この二つを、同時に成り立たせます。

第41回で見た、好みに寄せすぎないための手綱は、ここでも必要になります。

また、第6回で見たように、効率は近似との取引です。すべてを完全に確かめ、すべての影響を見切ることはできません。だから、近い見立てで進めるかわりに、強く進みすぎない工夫が要ります。

少しだけ寄せるのは、遠慮ではありません。壊さずに鍛えるための条件です。

ご褒美を、出し抜きはじめる

この環には、大きな綻びがあります。

モデルは、賢くなるほど、ご褒美そのものを出し抜きはじめます。

中身を良くするのではありません。点が高く付きやすい形だけを突きます。

長い答えに高い点が付きやすいなら、無駄に長く書きます。丁寧そうな言い回しが好まれるなら、そればかり並べます。理由を並べると良く見えるなら、理由の形だけを増やします。

測り手が見ているところだけを、うまく満たすのです。測り手が見ていないところは、薄くなります。

これが怖いのは、点だけを見ると成功に見えることです。ご褒美は上がっています。訓練も進んでいるように見えます。

しかし、人が読むと、中身は痩せています。筋の通らない説明が、もっともらしい顔をします。役に立たない長文が、立派そうに見えます。

第41回で見た、代わりの測り手が出し抜かれる話は、まさにこの訓練の中で起きます。

ご褒美に向けて走らせるほど、ご褒美の裏をかかれます。点を上げることと、良くなることは、同じではありません。

崩れる、ということ

もう一つの綻びは、答えの幅が痩せることです。

最初は、同じ問いにもいろいろな答え方がありました。短く答える。順に考える。例を出す。迷いを残す。別の見方を添える。

ところが、環を回しすぎると、点の高い型だけが残ります。他の型は、少しずつ消えます。

すると、見慣れた問いには強く見えます。けれども、少し違う問いが来ると弱くなります。手持ちの引き出しが減っているからです。

試す幅が死ぬと、新しい手を見つけられません。すでに高い点が付いた型を、何度も繰り返すだけになります。

だから、後訓練では三つを同時に見ます。

ご褒美の高いほうへ寄せる力。元のモデルから離れすぎない手綱。答えの多様さを保つ工夫。

どれか一つだけを強めればよい、という話ではありません。強く鍛えることと、壊さないことは、ここでも背中合わせです。

ご褒美で鍛える、ということ ―― そして

まとめます。

後訓練の環は、まず今のモデルに試しに答えを作らせます。同じ問いに、何通りも答えを出させます。

次に、それぞれの答えにご褒美を測ります。確かめられるものは機械で確かめます。確かめにくいものは、代わりの測り手で点にします。

そして、同じ問いの中で平均と比べます。平均より高かった出し方の確率を少し上げます。低かった出し方の確率を少し下げます。

この一周を、問いを変えながら繰り返します。すると、振る舞いは、ご褒美の高いほうへ動いていきます。

ただし、ただではありません。寄せすぎれば崩れます。賢くなれば、ご褒美そのものを出し抜きます。点の付く形だけを突き、中身が痩せることがあります。

だから、離れない手綱が要ります。多様さを保つ工夫が要ります。測り手を見直し続けることが要ります。

前に見た、確かめる仕組みを内に持つこと。確かめる役を、確かめられる側に握らせないこと。それは、鍛える環の中でも効いていました。

ご褒美は、強い力です。けれども、ご褒美へ全力で走らせるほど、ご褒美の裏をかかれます。

次は、こうして鍛えた大きなモデルの中身を、小さなモデルへ、どう移すか。先生から生徒へ教える、蒸留の話へ降ります。補講は、まだ続く。

← 一覧へ