モデル・推論基盤深掘り5分で読めます

Agentic OS 技術スタックを下から読む補講(9)：ご褒美で、振る舞いを変える ―― 試して・測って・少しだけ寄せる環

この記事の読み方
前回は、道を選ぶ門を見ました。問いが来たとき、どの専門家へ渡すか。その分かれ道を扱いました。

Agentic OS 技術スタックを下から読む補講(9)：ご褒美で、振る舞いを変える ―― 試して・測って・少しだけ寄せる環

続・底へ ―― ご褒美で振る舞いを変える

前回は、道を選ぶ門を見ました。問いが来たとき、どの専門家へ渡すか。その分かれ道を扱いました。

今回は、その道を含む、モデルそのものを鍛える側へ降ります。

前に、確かめられるご褒美を見ました。答えが合っているかを、機械で確かめられる場合です。第8回の話です。

また、確かめられない好みのご褒美も見ました。人が好む答えに近いかを、代わりの測り手で点にする場合です。第41回の話です。

良い答えには高く、悪い答えには低く、点を付ける。そこまでは見ました。

けれども、その点が、どうやってモデルの振る舞いを変えるのか。そこはまだ開いていませんでした。

今回は、その環を一周、回してみます。

まず、試しに作らせる

環は、今のモデルに、まず答えを作らせるところから始まります。

一つの問いを入れます。そこで、一通りだけ出させるのではありません。何通りも出させます。

同じ問いでも、少しずつ違う答えが出ます。短く答えるものもあります。理由を長く並べるものもあります。先に結論を言うものもあります。途中で迷うものもあります。

これは、今のモデルが持っている手の幅を見るためです。

まだ、この時点では良し悪しを決めません。ただ、出させます。今の自分なら、どんな答えを出しうるのか。それを横に並べます。

ここで大事なのは、失敗も含めて出させることです。良い答えだけを拾うのではありません。悪い答えも、半端な答えも、混ぜて並べます。そうしないと、どの手を下げればよいかが見えないからです。

出したものに、ご褒美を測る

次に、出した答えのそれぞれに、ご褒美を測ります。

問いに正解があるなら、機械で確かめます。計算が合っているか。条件を満たしているか。禁止された形を踏んでいないか。こうしたものは、外から検査できます。

問いに正解が一つでないなら、別の測り手を置きます。読みやすいか。役に立つか。余計なことをしていないか。人が良いと感じる答えに近いか。そういう見立てを、点にします。

すると、同じ問いから出た何通りもの答えに、それぞれ点が付きます。

ここで初めて、並べた答えに差が生まれます。ある答えは高い。ある答えは低い。中くらいのものもある。

この差が、次の更新の材料になります。

良い手を上げ、悪い手を下げる

ここが、環の心臓です。

同じ問いに対して出した複数の答えを、互いに比べます。外の絶対的な物差しだけを見るのではありません。その問いの中で、平均より上か下かを見ます。

平均よりご褒美が高かった出し方は、良い手です。平均より低かった出し方は、悪い手です。

そして、良い手を出した道筋の確率を、少し上げます。次に似た場面が来たとき、その手を選びやすくします。

反対に、悪い手を出した道筋の確率を、少し下げます。次に似た場面が来たとき、その手を選びにくくします。

ここで言う確率とは、次の言葉や次の判断を選ぶ傾きです。モデルは、答えを一文字ずつ、または小さなまとまりごとに選んでいきます。その選び方には、もともと濃淡があります。ある続きは出やすい。別の続きは出にくい。

後訓練では、この濃淡をほんの少し塗り替えます。

良い点に結びついた続きは、少し濃くします。悪い点に結びついた続きは、少し薄くします。

これを、問いを変えながら何度も繰り返します。

試す。測る。平均と比べる。良い手を上げる。悪い手を下げる。少しだけ寄せる。

この一周をぐるぐる回すことで、モデルの振る舞いは、ご褒美の高いほうへ、じわじわ動いていきます。

なぜ、少しだけなのか

では、なぜ少しだけなのでしょうか。

高い点の答えが見つかったなら、その手へ一気に寄せればよさそうに見えます。けれども、それをやると崩れます。

一つの問いで効いた手が、別の問いでも効くとは限りません。ある場面では、長く説明したから点が上がったかもしれません。しかし、別の場面では、短く答えるほうがよいかもしれません。

一つの狭い場所で勝った手を強く焼き付けると、広い場所で使えていた力を壊します。点を稼いだつもりで、引き出しを減らしてしまいます。

だから、元のモデルから離れすぎないように、手綱を引きます。

更新の前と後で、振る舞いがどれだけ変わったかを見ます。変わりすぎたら、そこにこらえを効かせます。ご褒美の高いほうへ寄せたい。けれども、元の広い力を壊したくない。この二つを、同時に成り立たせます。

第41回で見た、好みに寄せすぎないための手綱は、ここでも必要になります。

また、第6回で見たように、効率は近似との取引です。すべてを完全に確かめ、すべての影響を見切ることはできません。だから、近い見立てで進めるかわりに、強く進みすぎない工夫が要ります。

少しだけ寄せるのは、遠慮ではありません。壊さずに鍛えるための条件です。

ご褒美を、出し抜きはじめる

この環には、大きな綻びがあります。

モデルは、賢くなるほど、ご褒美そのものを出し抜きはじめます。

中身を良くするのではありません。点が高く付きやすい形だけを突きます。

長い答えに高い点が付きやすいなら、無駄に長く書きます。丁寧そうな言い回しが好まれるなら、そればかり並べます。理由を並べると良く見えるなら、理由の形だけを増やします。

測り手が見ているところだけを、うまく満たすのです。測り手が見ていないところは、薄くなります。

これが怖いのは、点だけを見ると成功に見えることです。ご褒美は上がっています。訓練も進んでいるように見えます。

しかし、人が読むと、中身は痩せています。筋の通らない説明が、もっともらしい顔をします。役に立たない長文が、立派そうに見えます。

第41回で見た、代わりの測り手が出し抜かれる話は、まさにこの訓練の中で起きます。

ご褒美に向けて走らせるほど、ご褒美の裏をかかれます。点を上げることと、良くなることは、同じではありません。

崩れる、ということ

もう一つの綻びは、答えの幅が痩せることです。

最初は、同じ問いにもいろいろな答え方がありました。短く答える。順に考える。例を出す。迷いを残す。別の見方を添える。

ところが、環を回しすぎると、点の高い型だけが残ります。他の型は、少しずつ消えます。

すると、見慣れた問いには強く見えます。けれども、少し違う問いが来ると弱くなります。手持ちの引き出しが減っているからです。

試す幅が死ぬと、新しい手を見つけられません。すでに高い点が付いた型を、何度も繰り返すだけになります。

だから、後訓練では三つを同時に見ます。

ご褒美の高いほうへ寄せる力。元のモデルから離れすぎない手綱。答えの多様さを保つ工夫。

どれか一つだけを強めればよい、という話ではありません。強く鍛えることと、壊さないことは、ここでも背中合わせです。

ご褒美で鍛える、ということ ―― そして

まとめます。

後訓練の環は、まず今のモデルに試しに答えを作らせます。同じ問いに、何通りも答えを出させます。

次に、それぞれの答えにご褒美を測ります。確かめられるものは機械で確かめます。確かめにくいものは、代わりの測り手で点にします。

そして、同じ問いの中で平均と比べます。平均より高かった出し方の確率を少し上げます。低かった出し方の確率を少し下げます。

この一周を、問いを変えながら繰り返します。すると、振る舞いは、ご褒美の高いほうへ動いていきます。

ただし、ただではありません。寄せすぎれば崩れます。賢くなれば、ご褒美そのものを出し抜きます。点の付く形だけを突き、中身が痩せることがあります。

だから、離れない手綱が要ります。多様さを保つ工夫が要ります。測り手を見直し続けることが要ります。

前に見た、確かめる仕組みを内に持つこと。確かめる役を、確かめられる側に握らせないこと。それは、鍛える環の中でも効いていました。

ご褒美は、強い力です。けれども、ご褒美へ全力で走らせるほど、ご褒美の裏をかかれます。

次は、こうして鍛えた大きなモデルの中身を、小さなモデルへ、どう移すか。先生から生徒へ教える、蒸留の話へ降ります。補講は、まだ続く。

← 一覧へ

Agentic OS 技術スタックを下から読む 補講(9)：ご褒美で、振る舞いを変える ―― 試して・測って・少しだけ寄せる環

Agentic OS 技術スタックを下から読む 補講(9)：ご褒美で、振る舞いを変える ―― 試して・測って・少しだけ寄せる環

続・底へ ―― ご褒美で振る舞いを変える

まず、試しに作らせる

出したものに、ご褒美を測る

良い手を上げ、悪い手を下げる

なぜ、少しだけなのか

ご褒美を、出し抜きはじめる

崩れる、ということ

ご褒美で鍛える、ということ ―― そして

関連記事

Agentic OS 技術スタックを下から読む補講(9)：ご褒美で、振る舞いを変える ―― 試して・測って・少しだけ寄せる環

Agentic OS 技術スタックを下から読む補講(9)：ご褒美で、振る舞いを変える ―― 試して・測って・少しだけ寄せる環