Agentic OS 技術スタックを下から読む 補講(10):先生の「自信の配り方」を移す ―― 蒸留は、惜しさまで教える
前回は、ご褒美で振る舞いを変える環を見ました。答えを出す。人の好みに近いかを見る。よい振る舞いに寄せる。そうして鍛えた大きなモデルは、賢くなります。
Agentic OS 技術スタックを下から読む 補講(10):先生の「自信の配り方」を移す ―― 蒸留は、惜しさまで教える
続・底へ ―― 大きな知を、小さな器へ
前回は、ご褒美で振る舞いを変える環を見ました。答えを出す。人の好みに近いかを見る。よい振る舞いに寄せる。そうして鍛えた大きなモデルは、賢くなります。
けれど、賢いモデルは重いです。動かすたびに多くの計算が要ります。何度も呼び出すと、時間も電力も食います。手元の小さな機械で、短い返事を何度も作るには、少し扱いにくいです。
前に第32回で、少ないビットで載せる工夫を見ました。数を細かく持つ代わりに、粗い目盛りで持つ。そうすれば、同じモデルを軽くできます。これも、小さくする一手でした。
ただし、別の縮め方があります。大きなモデルを先生にします。小さなモデルを生徒にします。そして、先生の知を、生徒へ教え移します。これが蒸留です。今回は、この仕組みを、底から見ます。
正解だけでは、一滴しか移らない
いちばん素朴な教え方は、正解で鍛えることです。
この写真は犬です。この文の次に来る語はこれです。この問いの答えはこれです。生徒は、出した答えと正解を比べます。外れていれば、正解に近づくように中の数を直します。
これは大事です。けれど、正解一個だけでは、移る中身が薄いです。
たとえば、生徒が「犬」を当てる練習をしているとします。正解だけを見るなら、犬以外は全部同じ不正解です。狼も、猫も、岩も、まとめて外れです。そこには、外れ方の差がありません。
しかし、実際には違います。犬を狼と迷うのは、かなり惜しいです。犬を猫と迷うのは、少し遠いです。犬を岩と迷うのは、ほとんど見当違いです。
正解一個だけを渡すと、この差が消えます。生徒は、なぜそれが正解なのかを知りません。どの間違いが惜しかったのかも知りません。ただ、一個の札だけを受け取ります。小さな生徒には、それでは足りません。
先生は、自信の配り方を持っている
ここで効くのが、先生の答え方です。
先生は、答えを出す前に、候補それぞれへ自信を配っています。犬が高い。狼にも少し残る。猫は低い。岩はほぼない。こういう配り方です。
最後に表へ出る答えは、一番高い候補だけです。けれど、内側では、ほかの候補にも細かく点が乗っています。この、自信の配り方を、ここでは「やわらかい答え」と呼びます。
やわらかい答えには、正解一個より多くの中身があります。犬が正解だ、だけではありません。犬と狼は近い。犬と猫は少し離れる。犬と岩は遠い。そういう、もの同士の関係が入っています。
正解だけを受け取ると、この配り方は捨てられます。一番高い一個だけ見て、残りを見ません。蒸留では、ここを捨てません。むしろ、ここを本体として扱います。
惜しさには、知識が宿る
なぜ、自信の配り方が効くのでしょうか。
理由は、惜しさの順番が、ものの関係を表しているからです。
犬の写真を考えます。先生は、犬に強い自信を置きます。狼にも少し置きます。猫にはもっと少なく置きます。岩にはほとんど置きません。
この並びには、知識があります。犬と狼は、形も毛並みも近いです。耳、鼻先、脚、体つきにも似た部分があります。猫は同じ動物ですが、顔や体の作りがかなり違います。岩は生き物ですらありません。
つまり、先生の自信の残り方は、世界の近さを映しています。正解の「犬」という一語には、この近さは出ません。間違いの側に残った自信にだけ、出ます。
補講(7)では、埋め込みを見ました。ものの近さを、数の並びの中に置く仕組みでした。蒸留でも、似たことが起きています。ただし、ここで移るのは座標そのものではありません。答えの候補へ自信をどう配るか、という形で、近さの関係が生徒へ渡ります。
自信の配り方ごと、真似させる
蒸留では、生徒に正解だけを見せません。先生のやわらかい答えを、目標にします。
同じ問いを、先生と生徒の両方に見せます。先生は、自信の配り方を出します。生徒も、自分なりの配り方を出します。そして、生徒の配り方が先生に近づくように直します。
犬の例なら、ただ犬を高くするだけでは足りません。狼を少し高く残す。猫は低くする。岩はほぼ消す。そこまで似せます。生徒は、正解だけでなく、惜しさの形を学びます。
さらに、先生の配り方を少しなだらかにすることがあります。一番高い答えが突出しすぎると、二番目、三番目の差が見えにくくなります。犬だけがほぼ全部を占めると、狼がどれだけ惜しいかが消えます。
そこで、配り方を少し均します。犬は高いままです。けれど、狼や猫に残った小さな差も見えるようにします。すると、生徒は一つの例から、正解一滴ではなく、関係の地図を受け取れます。
小さな器でも育ちやすいのは、このためです。一問ごとに、答えだけでなく、周辺の形まで渡されるからです。
量子化とは、別の縮め方
第32回で見た、少ないビットで載せる工夫も、モデルを軽くしました。蒸留も、軽く使うための工夫です。けれど、仕組みはまったく違います。
ビットを削るほうは、同じモデルの数の持ち方を粗くします。細かい目盛りで持っていた重みを、粗い目盛りで持ちます。器は同じです。中の数の表し方を縮めます。
蒸留は違います。別の、小さな器を用意します。その器へ、大きな先生の答え方を教え移します。中身をそのまま圧縮するのではありません。小さな生徒を、先生に似た振る舞いへ育てます。
削るのと、教え移すのは、別の縮め方です。だから、重ねて使うこともできます。まず先生から学んだ小さな生徒を作ります。そのあとで、その生徒の数をさらに粗いビットで持ちます。二つの工夫は、別々の場所に効きます。
生徒は、先生の癖まで継ぐ
ただし、蒸留は魔法ではありません。
まず、生徒は先生より器が小さいです。持てる数も少ないです。途中で広げられる表現も狭いです。どれだけ先生を真似ても、全部は入りません。近づくだけです。
第6回で見たように、効率は近似との取引です。速くする。軽くする。安く動かす。その代わり、どこかで細かさを捨てます。蒸留でも同じです。先生の知を移すとはいえ、小さな器に入る形へ丸めています。
さらに厄介なのは、生徒が先生のよいところだけを選んで継げないことです。自信の配り方を真似る以上、先生の間違いも混ざります。先生がある種類の問いで迷いやすければ、生徒も迷いやすくなります。先生がある見方に寄っていれば、その寄り方も移ります。
だから、先生のやわらかい答えは値打ちがあります。外へ返す答えを一個だけにすれば、自信の配り方は見えません。配り方が見えなければ、安く真似されにくくなります。先生の本当の値打ちは、正解そのものだけではありません。どの間違いをどれだけ惜しいと見たかにも、深く宿っています。
教え移す、ということ ―― そして
まとめます。
蒸留は、ビットを削ることではありません。大きな先生の知を、小さな生徒へ教え移すことです。
そのとき大事なのは、正解一個ではありません。先生の自信の配り方です。どの間違いが、どれだけ惜しいか。その並びの中に、もの同士の近さが入っています。生徒は、それを真似ることで、小さな器のまま、関係の地図を受け取ります。
けれど、器の差は埋まりません。小さくする以上、どこかは近似になります。そして、先生の癖まで継ぎます。効率を得るかわりに、何を失い、何を受け継ぐのかを見る必要があります。
削るのも、教え移すのも、賢さを安く積むための土台の工夫でした。次は、鍛える側のもっと手前へ降ります。そもそも、何を素材にして鍛えるのか。事前学習の材料を、どう作るのか。その話へ進みます。補講は、まだ続く。
← 一覧へ