モデル・推論基盤深掘り5分で読めます

Agentic OS 技術スタックを下から読む補講(10)：先生の「自信の配り方」を移す ―― 蒸留は、惜しさまで教える

この記事の読み方
前回は、ご褒美で振る舞いを変える環を見ました。答えを出す。人の好みに近いかを見る。よい振る舞いに寄せる。そうして鍛えた大きなモデルは、賢くなります。

Agentic OS 技術スタックを下から読む補講(10)：先生の「自信の配り方」を移す ―― 蒸留は、惜しさまで教える

続・底へ ―― 大きな知を、小さな器へ

前回は、ご褒美で振る舞いを変える環を見ました。答えを出す。人の好みに近いかを見る。よい振る舞いに寄せる。そうして鍛えた大きなモデルは、賢くなります。

けれど、賢いモデルは重いです。動かすたびに多くの計算が要ります。何度も呼び出すと、時間も電力も食います。手元の小さな機械で、短い返事を何度も作るには、少し扱いにくいです。

前に第32回で、少ないビットで載せる工夫を見ました。数を細かく持つ代わりに、粗い目盛りで持つ。そうすれば、同じモデルを軽くできます。これも、小さくする一手でした。

ただし、別の縮め方があります。大きなモデルを先生にします。小さなモデルを生徒にします。そして、先生の知を、生徒へ教え移します。これが蒸留です。今回は、この仕組みを、底から見ます。

正解だけでは、一滴しか移らない

いちばん素朴な教え方は、正解で鍛えることです。

この写真は犬です。この文の次に来る語はこれです。この問いの答えはこれです。生徒は、出した答えと正解を比べます。外れていれば、正解に近づくように中の数を直します。

これは大事です。けれど、正解一個だけでは、移る中身が薄いです。

たとえば、生徒が「犬」を当てる練習をしているとします。正解だけを見るなら、犬以外は全部同じ不正解です。狼も、猫も、岩も、まとめて外れです。そこには、外れ方の差がありません。

しかし、実際には違います。犬を狼と迷うのは、かなり惜しいです。犬を猫と迷うのは、少し遠いです。犬を岩と迷うのは、ほとんど見当違いです。

正解一個だけを渡すと、この差が消えます。生徒は、なぜそれが正解なのかを知りません。どの間違いが惜しかったのかも知りません。ただ、一個の札だけを受け取ります。小さな生徒には、それでは足りません。

先生は、自信の配り方を持っている

ここで効くのが、先生の答え方です。

先生は、答えを出す前に、候補それぞれへ自信を配っています。犬が高い。狼にも少し残る。猫は低い。岩はほぼない。こういう配り方です。

最後に表へ出る答えは、一番高い候補だけです。けれど、内側では、ほかの候補にも細かく点が乗っています。この、自信の配り方を、ここでは「やわらかい答え」と呼びます。

やわらかい答えには、正解一個より多くの中身があります。犬が正解だ、だけではありません。犬と狼は近い。犬と猫は少し離れる。犬と岩は遠い。そういう、もの同士の関係が入っています。

正解だけを受け取ると、この配り方は捨てられます。一番高い一個だけ見て、残りを見ません。蒸留では、ここを捨てません。むしろ、ここを本体として扱います。

惜しさには、知識が宿る

なぜ、自信の配り方が効くのでしょうか。

理由は、惜しさの順番が、ものの関係を表しているからです。

犬の写真を考えます。先生は、犬に強い自信を置きます。狼にも少し置きます。猫にはもっと少なく置きます。岩にはほとんど置きません。

この並びには、知識があります。犬と狼は、形も毛並みも近いです。耳、鼻先、脚、体つきにも似た部分があります。猫は同じ動物ですが、顔や体の作りがかなり違います。岩は生き物ですらありません。

つまり、先生の自信の残り方は、世界の近さを映しています。正解の「犬」という一語には、この近さは出ません。間違いの側に残った自信にだけ、出ます。

補講(7)では、埋め込みを見ました。ものの近さを、数の並びの中に置く仕組みでした。蒸留でも、似たことが起きています。ただし、ここで移るのは座標そのものではありません。答えの候補へ自信をどう配るか、という形で、近さの関係が生徒へ渡ります。

自信の配り方ごと、真似させる

蒸留では、生徒に正解だけを見せません。先生のやわらかい答えを、目標にします。

同じ問いを、先生と生徒の両方に見せます。先生は、自信の配り方を出します。生徒も、自分なりの配り方を出します。そして、生徒の配り方が先生に近づくように直します。

犬の例なら、ただ犬を高くするだけでは足りません。狼を少し高く残す。猫は低くする。岩はほぼ消す。そこまで似せます。生徒は、正解だけでなく、惜しさの形を学びます。

さらに、先生の配り方を少しなだらかにすることがあります。一番高い答えが突出しすぎると、二番目、三番目の差が見えにくくなります。犬だけがほぼ全部を占めると、狼がどれだけ惜しいかが消えます。

そこで、配り方を少し均します。犬は高いままです。けれど、狼や猫に残った小さな差も見えるようにします。すると、生徒は一つの例から、正解一滴ではなく、関係の地図を受け取れます。

小さな器でも育ちやすいのは、このためです。一問ごとに、答えだけでなく、周辺の形まで渡されるからです。

量子化とは、別の縮め方

第32回で見た、少ないビットで載せる工夫も、モデルを軽くしました。蒸留も、軽く使うための工夫です。けれど、仕組みはまったく違います。

ビットを削るほうは、同じモデルの数の持ち方を粗くします。細かい目盛りで持っていた重みを、粗い目盛りで持ちます。器は同じです。中の数の表し方を縮めます。

蒸留は違います。別の、小さな器を用意します。その器へ、大きな先生の答え方を教え移します。中身をそのまま圧縮するのではありません。小さな生徒を、先生に似た振る舞いへ育てます。

削るのと、教え移すのは、別の縮め方です。だから、重ねて使うこともできます。まず先生から学んだ小さな生徒を作ります。そのあとで、その生徒の数をさらに粗いビットで持ちます。二つの工夫は、別々の場所に効きます。

生徒は、先生の癖まで継ぐ

ただし、蒸留は魔法ではありません。

まず、生徒は先生より器が小さいです。持てる数も少ないです。途中で広げられる表現も狭いです。どれだけ先生を真似ても、全部は入りません。近づくだけです。

第6回で見たように、効率は近似との取引です。速くする。軽くする。安く動かす。その代わり、どこかで細かさを捨てます。蒸留でも同じです。先生の知を移すとはいえ、小さな器に入る形へ丸めています。

さらに厄介なのは、生徒が先生のよいところだけを選んで継げないことです。自信の配り方を真似る以上、先生の間違いも混ざります。先生がある種類の問いで迷いやすければ、生徒も迷いやすくなります。先生がある見方に寄っていれば、その寄り方も移ります。

だから、先生のやわらかい答えは値打ちがあります。外へ返す答えを一個だけにすれば、自信の配り方は見えません。配り方が見えなければ、安く真似されにくくなります。先生の本当の値打ちは、正解そのものだけではありません。どの間違いをどれだけ惜しいと見たかにも、深く宿っています。

教え移す、ということ ―― そして

まとめます。

蒸留は、ビットを削ることではありません。大きな先生の知を、小さな生徒へ教え移すことです。

そのとき大事なのは、正解一個ではありません。先生の自信の配り方です。どの間違いが、どれだけ惜しいか。その並びの中に、もの同士の近さが入っています。生徒は、それを真似ることで、小さな器のまま、関係の地図を受け取ります。

けれど、器の差は埋まりません。小さくする以上、どこかは近似になります。そして、先生の癖まで継ぎます。効率を得るかわりに、何を失い、何を受け継ぐのかを見る必要があります。

削るのも、教え移すのも、賢さを安く積むための土台の工夫でした。次は、鍛える側のもっと手前へ降ります。そもそも、何を素材にして鍛えるのか。事前学習の材料を、どう作るのか。その話へ進みます。補講は、まだ続く。

← 一覧へ

Agentic OS 技術スタックを下から読む 補講(10)：先生の「自信の配り方」を移す ―― 蒸留は、惜しさまで教える

Agentic OS 技術スタックを下から読む 補講(10)：先生の「自信の配り方」を移す ―― 蒸留は、惜しさまで教える

続・底へ ―― 大きな知を、小さな器へ

正解だけでは、一滴しか移らない

先生は、自信の配り方を持っている

惜しさには、知識が宿る

自信の配り方ごと、真似させる

量子化とは、別の縮め方

生徒は、先生の癖まで継ぐ

教え移す、ということ ―― そして

関連記事

Agentic OS 技術スタックを下から読む補講(10)：先生の「自信の配り方」を移す ―― 蒸留は、惜しさまで教える

Agentic OS 技術スタックを下から読む補講(10)：先生の「自信の配り方」を移す ―― 蒸留は、惜しさまで教える