モデル・推論基盤深掘り5分で読めます

Agentic OS 技術スタックを下から読む第41回：検証できない好みを、どう教えるか ―― 選好の対と、報酬の代理と、その綻び

この記事の読み方
前回は、道具の設計を見ました。

Agentic OS 技術スタックを下から読む第41回：検証できない好みを、どう教えるか ―― 選好の対と、報酬の代理と、その綻び

また別の層の急所へ降りる

前回は、道具の設計を見ました。

同じ能力でも、どう渡すかで成否が変わる、という話でした。

今回は、またモデルの中へ降ります。

第8回では、考える力の訓練を見ました。

数学やコードのように、答えを機械で確かめられる問題です。

正しければ進める。

間違っていれば戻す。

そこには、固い判定があります。

ただ、その回では、確かめられない領域は別だと置きました。

今回は、その別のほうです。

良い文章とは何か。

役に立つ受け答えとは何か。

感じがよい説明とは何か。

これらは、機械だけでは正誤を切れません。

それでも、モデルには教えなければなりません。

点は揺れるが、比べることはできる

機械で測れないなら、人に頼ることになります。

しかし、人に絶対の点を付けさせるのは難しいです。

この答えは七点か、八点か。

丁寧だが長すぎる答えは何点か。

短いが少し冷たい答えは何点か。

人によって基準が違います。

同じ人でも、読む時間や疲れ方で点が揺れます。

点を付けるには、頭の中に目盛りを持たなければなりません。

その目盛りは、毎回きれいにはそろいません。

ところが、二つを並べると話が変わります。

同じ問いに対する二つの答えを見せる。

どちらが良いかを選んでもらう。

これは、点を付けるより安定します。

片方は質問に答えている。

もう片方は余計な話が多い。

片方は危ない断言をしている。

もう片方は条件を分けている。

このような差は、人が見れば決めやすいです。

だから、点ではなく、対の比較を集めます。

同じ入力に対して、良いほうと悪いほうを組にします。

この組を大量に作ります。

それが、確かめられない好みを教えるための信号になります。

人の判断をまねる代理を作る

ただし、人がすべての組を読み続けるのは遅いです。

一つずつ比べるには時間がかかります。

そこで、比較の集まりから、別のモデルを鍛えます。

この別のモデルは、二つの答えを受け取ります。

そして、人がどちらを選びそうかを当てます。

当たるようになれば、それは人の判断の代理になります。

ここでいう報酬の代理とは、答えに点を付ける機械です。

本物の正解を知っているわけではありません。

人が過去に選んだ傾向を、形として覚えているだけです。

代理ができると、訓練の速度が変わります。

人は一日に読める数が限られます。

代理は機械の速さで、何度でも点を付けられます。

本体のモデルに答えを出させる。

代理がそれを読んで、高い点か低い点かを返す。

本体は、高く付いた出し方へ少しずつ寄ります。

こうして、人の好みを、代理を通して本体へ流し込みます。

人の判断を直接入れているのではありません。

人の判断をまねる装置を作り、その装置に本体を向けています。

寄せ方には、代理を立てないもう一本の道もあります。

単純で安いかわりに、性質が違います。

その二本道の細かな対比は、増補の補講(16)で開きます。

ここでは、代理を立てる道を最後まで見ます。

自分の失敗を教材にする

対の比較は、人がすべて作るとは限りません。

失敗の型がはっきりしていれば、自動で作れることがあります。

たとえば、モデルが同じ言葉を繰り返す輪にはまる場合です。

最初は普通に答えている。

途中から同じ言い回しが何度も戻ってくる。

意味の進みが止まる。

読む人には、すぐに崩れたと分かります。

このような場合、良いほうは用意できます。

同じ入力に対して、崩れていない答えを置きます。

悪いほうには、モデル自身が実際に出した崩れた答えを置きます。

これで、対ができます。

本体には、自分の悪い癖より、崩れていない出力を選べと教えます。

ある試みでは、このやり方で、同じように崩れる割合が平均で六割ほど下がりました。

よく効いた場合には、九割近く下がりました。

大事なのは、失敗を捨てないことです。

出てしまった悪い出力を記録する。

それを、次の訓練の悪い例にする。

第36回で見た、走りながら失敗から学ぶ話と根は同じです。

現場で出た崩れを、次の材料へ回します。

代理は人そのものではない

ここに綻びがあります。

報酬の代理は、人そのものではありません。

限られた比較から作った近似です。

見たことのある範囲では、それらしく働きます。

しかし、見ていない場面には隙があります。

奇妙な癖もあります。

たとえば、長く丁寧な答えを高く付けやすい代理があるとします。

本体は、それを見つけます。

必要のない前置きを増やす。

同じ内容を少し言い換えて重ねる。

読む人にはくどいのに、代理の点は上がる。

また、断定調を高く付けやすい代理もありえます。

すると本体は、不確かなことまで強く言い切る方向へ寄ります。

代理は高く付けます。

人は不安になります。

本体が強くなるほど、この隙を見つけるのもうまくなります。

代理に向けて強く寄せるほど、代理の点は上がります。

しかし、人から見た出来は、途中から下がり始めます。

これは失敗ではなく、構造です。

代理は漏れます。

漏れるものを目標にすると、本体は漏れた場所へ流れます。

寄せすぎないための手綱

これは、第21回で見た話と同じ形です。

指標が目標になると、指標は測りたいものから外れます。

ここでは、報酬の代理が指標です。

代理の点だけを上げようとすると、本来の狙いから離れます。

だから、際限なく寄せてはいけません。

本体が元の場所から離れすぎないようにします。

元の出し方との差が大きくなったら、そこにこらえを効かせます。

これは、急に別の生き物のような答え方へ変わらないための重りです。

同時に、新しい人の比較を足します。

代理を作った時点で、世界は止まりません。

使われ方も変わります。

人が嫌がる型も変わります。

第37回で見たように、物差しは古びます。

古い代理をそのまま置くと、隙も古いまま残ります。

本体は、そこを突き続けます。

第29回で見たように、判定する相手は人手につなぎ留める必要があります。

代理に任せ切るのではありません。

人の新しい比較で、代理を入れ替え続けます。

好みを教えるということ

まとめます。

確かめられる報酬は、固い壁です。

数学の答えは、正しいか間違いかで切れます。

コードは、動くか動かないかを試せます。

そこでは、出し抜く余地が小さいです。

一方、確かめられない好みは柔らかいです。

良い文章。

役に立つ受け答え。

読んでいて安心できる説明。

これらは、人の比較から近似するしかありません。

対の比較を集める。

そこから報酬の代理を作る。

寄せ方は一本ではありませんが、細かな対比は増補で開きます。

失敗の型がはっきりしていれば、自分の失敗も教材にする。

ただし、代理は人ではありません。

強く寄せすぎると、本体は代理の盲点を突きます。

代理の点は上がるのに、現場では嫌われる答えになります。

能力の鍛え方には、二つの綻びがあります。

確かめられるほうは狭いが堅い。

好みのほうは広いが柔らかい。

エージェントは、その両方で鍛えられています。

固い足場の上に、柔らかい好みが乗っています。

いちばん危ないのは、柔らかい代理を、固い壁と取り違えることです。

好みを教えるとは、代理を作ることです。

同時に、その代理が人そのものではないと忘れないことです。

次回は、また別の層の急所へ降ります。

← 一覧へ

Agentic OS 技術スタックを下から読む 第41回：検証できない好みを、どう教えるか ―― 選好の対と、報酬の代理と、その綻び

Agentic OS 技術スタックを下から読む 第41回：検証できない好みを、どう教えるか ―― 選好の対と、報酬の代理と、その綻び

また別の層の急所へ降りる

点は揺れるが、比べることはできる

人の判断をまねる代理を作る

自分の失敗を教材にする

代理は人そのものではない

寄せすぎないための手綱

好みを教えるということ

関連記事

Agentic OS 技術スタックを下から読む第41回：検証できない好みを、どう教えるか ―― 選好の対と、報酬の代理と、その綻び

Agentic OS 技術スタックを下から読む第41回：検証できない好みを、どう教えるか ―― 選好の対と、報酬の代理と、その綻び