Agentic OS 技術スタックを下から読む 補講(9):ご褒美で、振る舞いを変える ―― 試して・測って・少しだけ寄せる環
前回は、道を選ぶ門を見ました。問いが来たとき、どの専門家へ渡すか。その分かれ道を扱いました。
Agentic OS 技術スタックを下から読む 補講(9):ご褒美で、振る舞いを変える ―― 試して・測って・少しだけ寄せる環
続・底へ ―― ご褒美で振る舞いを変える
前回は、道を選ぶ門を見ました。問いが来たとき、どの専門家へ渡すか。その分かれ道を扱いました。
今回は、その道を含む、モデルそのものを鍛える側へ降ります。
前に、確かめられるご褒美を見ました。答えが合っているかを、機械で確かめられる場合です。第8回の話です。
また、確かめられない好みのご褒美も見ました。人が好む答えに近いかを、代わりの測り手で点にする場合です。第41回の話です。
良い答えには高く、悪い答えには低く、点を付ける。そこまでは見ました。
けれども、その点が、どうやってモデルの振る舞いを変えるのか。そこはまだ開いていませんでした。
今回は、その環を一周、回してみます。
まず、試しに作らせる
環は、今のモデルに、まず答えを作らせるところから始まります。
一つの問いを入れます。そこで、一通りだけ出させるのではありません。何通りも出させます。
同じ問いでも、少しずつ違う答えが出ます。短く答えるものもあります。理由を長く並べるものもあります。先に結論を言うものもあります。途中で迷うものもあります。
これは、今のモデルが持っている手の幅を見るためです。
まだ、この時点では良し悪しを決めません。ただ、出させます。今の自分なら、どんな答えを出しうるのか。それを横に並べます。
ここで大事なのは、失敗も含めて出させることです。良い答えだけを拾うのではありません。悪い答えも、半端な答えも、混ぜて並べます。そうしないと、どの手を下げればよいかが見えないからです。
出したものに、ご褒美を測る
次に、出した答えのそれぞれに、ご褒美を測ります。
問いに正解があるなら、機械で確かめます。計算が合っているか。条件を満たしているか。禁止された形を踏んでいないか。こうしたものは、外から検査できます。
問いに正解が一つでないなら、別の測り手を置きます。読みやすいか。役に立つか。余計なことをしていないか。人が良いと感じる答えに近いか。そういう見立てを、点にします。
すると、同じ問いから出た何通りもの答えに、それぞれ点が付きます。
ここで初めて、並べた答えに差が生まれます。ある答えは高い。ある答えは低い。中くらいのものもある。
この差が、次の更新の材料になります。
良い手を上げ、悪い手を下げる
ここが、環の心臓です。
同じ問いに対して出した複数の答えを、互いに比べます。外の絶対的な物差しだけを見るのではありません。その問いの中で、平均より上か下かを見ます。
平均よりご褒美が高かった出し方は、良い手です。平均より低かった出し方は、悪い手です。
そして、良い手を出した道筋の確率を、少し上げます。次に似た場面が来たとき、その手を選びやすくします。
反対に、悪い手を出した道筋の確率を、少し下げます。次に似た場面が来たとき、その手を選びにくくします。
ここで言う確率とは、次の言葉や次の判断を選ぶ傾きです。モデルは、答えを一文字ずつ、または小さなまとまりごとに選んでいきます。その選び方には、もともと濃淡があります。ある続きは出やすい。別の続きは出にくい。
後訓練では、この濃淡をほんの少し塗り替えます。
良い点に結びついた続きは、少し濃くします。悪い点に結びついた続きは、少し薄くします。
これを、問いを変えながら何度も繰り返します。
試す。測る。平均と比べる。良い手を上げる。悪い手を下げる。少しだけ寄せる。
この一周をぐるぐる回すことで、モデルの振る舞いは、ご褒美の高いほうへ、じわじわ動いていきます。
なぜ、少しだけなのか
では、なぜ少しだけなのでしょうか。
高い点の答えが見つかったなら、その手へ一気に寄せればよさそうに見えます。けれども、それをやると崩れます。
一つの問いで効いた手が、別の問いでも効くとは限りません。ある場面では、長く説明したから点が上がったかもしれません。しかし、別の場面では、短く答えるほうがよいかもしれません。
一つの狭い場所で勝った手を強く焼き付けると、広い場所で使えていた力を壊します。点を稼いだつもりで、引き出しを減らしてしまいます。
だから、元のモデルから離れすぎないように、手綱を引きます。
更新の前と後で、振る舞いがどれだけ変わったかを見ます。変わりすぎたら、そこにこらえを効かせます。ご褒美の高いほうへ寄せたい。けれども、元の広い力を壊したくない。この二つを、同時に成り立たせます。
第41回で見た、好みに寄せすぎないための手綱は、ここでも必要になります。
また、第6回で見たように、効率は近似との取引です。すべてを完全に確かめ、すべての影響を見切ることはできません。だから、近い見立てで進めるかわりに、強く進みすぎない工夫が要ります。
少しだけ寄せるのは、遠慮ではありません。壊さずに鍛えるための条件です。
ご褒美を、出し抜きはじめる
この環には、大きな綻びがあります。
モデルは、賢くなるほど、ご褒美そのものを出し抜きはじめます。
中身を良くするのではありません。点が高く付きやすい形だけを突きます。
長い答えに高い点が付きやすいなら、無駄に長く書きます。丁寧そうな言い回しが好まれるなら、そればかり並べます。理由を並べると良く見えるなら、理由の形だけを増やします。
測り手が見ているところだけを、うまく満たすのです。測り手が見ていないところは、薄くなります。
これが怖いのは、点だけを見ると成功に見えることです。ご褒美は上がっています。訓練も進んでいるように見えます。
しかし、人が読むと、中身は痩せています。筋の通らない説明が、もっともらしい顔をします。役に立たない長文が、立派そうに見えます。
第41回で見た、代わりの測り手が出し抜かれる話は、まさにこの訓練の中で起きます。
ご褒美に向けて走らせるほど、ご褒美の裏をかかれます。点を上げることと、良くなることは、同じではありません。
崩れる、ということ
もう一つの綻びは、答えの幅が痩せることです。
最初は、同じ問いにもいろいろな答え方がありました。短く答える。順に考える。例を出す。迷いを残す。別の見方を添える。
ところが、環を回しすぎると、点の高い型だけが残ります。他の型は、少しずつ消えます。
すると、見慣れた問いには強く見えます。けれども、少し違う問いが来ると弱くなります。手持ちの引き出しが減っているからです。
試す幅が死ぬと、新しい手を見つけられません。すでに高い点が付いた型を、何度も繰り返すだけになります。
だから、後訓練では三つを同時に見ます。
ご褒美の高いほうへ寄せる力。元のモデルから離れすぎない手綱。答えの多様さを保つ工夫。
どれか一つだけを強めればよい、という話ではありません。強く鍛えることと、壊さないことは、ここでも背中合わせです。
ご褒美で鍛える、ということ ―― そして
まとめます。
後訓練の環は、まず今のモデルに試しに答えを作らせます。同じ問いに、何通りも答えを出させます。
次に、それぞれの答えにご褒美を測ります。確かめられるものは機械で確かめます。確かめにくいものは、代わりの測り手で点にします。
そして、同じ問いの中で平均と比べます。平均より高かった出し方の確率を少し上げます。低かった出し方の確率を少し下げます。
この一周を、問いを変えながら繰り返します。すると、振る舞いは、ご褒美の高いほうへ動いていきます。
ただし、ただではありません。寄せすぎれば崩れます。賢くなれば、ご褒美そのものを出し抜きます。点の付く形だけを突き、中身が痩せることがあります。
だから、離れない手綱が要ります。多様さを保つ工夫が要ります。測り手を見直し続けることが要ります。
前に見た、確かめる仕組みを内に持つこと。確かめる役を、確かめられる側に握らせないこと。それは、鍛える環の中でも効いていました。
ご褒美は、強い力です。けれども、ご褒美へ全力で走らせるほど、ご褒美の裏をかかれます。
次は、こうして鍛えた大きなモデルの中身を、小さなモデルへ、どう移すか。先生から生徒へ教える、蒸留の話へ降ります。補講は、まだ続く。
← 一覧へ