モデル・推論基盤深掘り7分で読めます

Agentic OS 技術スタックを下から読む補講(11)：モデルは、食べたものでできている ―― 鍛える前の、素材の作り方

この記事の読み方
補講(10)では、蒸留を見ました。

Agentic OS 技術スタックを下から読む補講(11)：モデルは、食べたものでできている ―― 鍛える前の、素材の作り方

続・底へ ―― 鍛える前の、素材

補講(10)では、蒸留を見ました。

大きな先生から、小さな生徒へ、知を教え移す話でした。量子化で縮める工夫も見ました。ご褒美で鍛える環も見ました。

けれども、もっと手前があります。

そもそも、何を素材にして、鍛えるのでしょうか。

モデルは、食べたものでできています。どれほど上手に鍛えても、素材が悪ければ、ある天井から上には行けません。鍛え方より、もっと下で、素材が、できあがりを縛っています。

今回は、その素材をどう作るかを開きます。

事前学習とは、モデルに大量の文章を読ませ、言葉の続き方や、知識の並び方や、説明の形を、広く身につけさせる段階です。ここでは、まだ特定の作業を教え込むのではありません。世界の文章に、長く触れさせます。

だから、この段階で何を食べたかが、あとまで残ります。

集めただけでは、素材にならない

最初にやることは、集めることです。

世の中にある文章を、できるだけ広く集めます。解説、手順、物語、記録、議論、表、断片。長いものも、短いものもあります。整った文章もあれば、途中で切れた文章もあります。

けれども、集めただけの生の山は、まだ素材ではありません。

同じ文章が何度も入っています。壊れた文字列もあります。中身のない決まり文句もあります。広告の残骸もあります。特定の立場だけが強く出ている場所もあります。古い内容が新しい顔をして混ざることもあります。

そのまま食べさせると、モデルは、それを選り分けてくれません。

そこに重複があれば、重複も学びます。汚れがあれば、汚れも学びます。偏りがあれば、偏りも学びます。人間なら「これは変だ」と読み飛ばすものでも、モデルには、食べた回数ぶんだけ重みになります。

第33回で、鍛えるときには、まず素材に触れると書きました。あれは、調べる側から見た話でした。今回は、その手前です。そもそも触らせる素材を、どう作るかです。

生の山は、集めるだけでは足りません。整えて、初めて素材になります。

重複を除く ―― 同じものを、何度も覚えない

最初の大きな仕事は、重複を除くことです。

同じ文章は、思っているより何度も現れます。誰かが写します。別の場所に転載されます。引用の形で増えます。見出しだけ変えて、中身がほとんど同じものもあります。語尾だけ変えたものもあります。

完全に同じなら、見つけるのはまだ簡単です。文字列を比べればよいからです。

難しいのは、少しだけ違うものです。途中に広告が入っている。段落の順番が変わっている。表記が少し直されている。見出しだけ足されている。この場合、文字を一字ずつ比べても、別物に見えます。

そこで、文章を短いかたまりに分けます。たとえば、連続した数語をひとまとまりにします。その小さなかたまりが、どれだけ重なるかを見ます。全体の形が似ていれば、細部が違っても、同じ出どころだと分かります。

これを放っておくと、二つ困ります。

一つ目は、丸暗記です。同じ文章を何百回も読むと、モデルは意味の関係を学ぶより、その文章そのものを覚えやすくなります。問いかけられたとき、考えたように見えて、実は見たことのある並びを吐き出すだけになります。

二つ目は、偏りです。よく写された文章は、何度も耳に入ります。すると、その書き方や立場が、世の中の標準のように強く刻まれます。本当は一部の声が大きいだけなのに、モデルの中では多数派の声になります。

だから、同じものは一回ぶんに減らします。

重複を除くと、丸暗記が減ります。よく写されたものだけが強くなることも抑えられます。素材の声の大きさが、少しそろいます。

汚れを濾す ―― 食べさせないものを決める

次は、汚れを濾すことです。

ここでいう汚れとは、単に乱暴な言葉だけではありません。壊れた文字列もあります。記号だけが続く行もあります。本文より案内文のほうが長い文章もあります。中身のない決まり文句の寄せ集めもあります。機械的に作られた薄い文章もあります。

モデルは、そこにあるものから学びます。良いものだけを、自分で選んで食べるわけではありません。

たとえば、途中で文字が壊れた文章を多く食べると、壊れた並びも、ありうる言葉の形として覚えます。見出しばかりの文章を多く食べると、説明を深めるより、見出し風にまとめる癖が強くなります。決まり文句ばかりを食べると、空疎な言い回しを、それらしい答えとして出しやすくなります。

だから、何を食べさせないかを決めます。

ただし、これは単純ではありません。

捨てすぎると、良いものまで失います。短い文章を全部捨てれば、短くても鋭い説明や、現場の記録も消えます。古い文章を全部捨てれば、長く使われてきた知識や、歴史的な説明も消えます。俗な言い回しを全部捨てれば、人が実際にどう話すかが薄くなります。

残しすぎると、汚れが混じります。捨てすぎると、世界が細ります。

線引きは、機械的な規則だけでは足りません。文字の壊れ方を見る。本文らしさを見る。繰り返しの多さを見る。危険な誘導がないかを見る。短くても意味があるかを見る。

汚れを濾す仕事は、残す仕事ではなく、捨てる判断の連続です。この判断が、素材の質を左右します。

配合を決める ―― 何を、どれだけ

三つ目は、配合です。

どの分野の文章を、どれだけ混ぜるかを決めます。

物語を多く入れるのか。手順を多く入れるのか。専門的な説明を厚くするのか。日常的な文章を厚くするのか。古い文章を残すのか。新しい文章を強めるのか。短い断片をどこまで入れるのか。長い解説をどこまで重く見るのか。

この混ぜ方が、モデルの得意を決めます。

手順の文章が多ければ、順番に説明する力は伸びます。ただし、物語の流れや、人の感情の細かな揺れは弱くなるかもしれません。物語が多ければ、自然な流れは出やすくなります。ただし、作業の手順を正確に並べる力は弱くなるかもしれません。

専門的な文章を厚くすれば、深い説明は得意になります。その代わり、日常の言い方から離れやすくなります。日常的な文章を厚くすれば、親しみやすくなります。その代わり、厳密な説明が甘くなることがあります。

配合は、全部入れることではありません。

何を、どれだけ、どの順で食べさせるかという設計です。同じ量の素材でも、混ぜ方を変えれば、別のモデルになります。

料理にたとえるなら、材料の総量だけでは味は決まりません。塩が多ければ塩辛くなります。水が多ければ薄くなります。香りの強いものを少し入れるだけで、全体の印象は変わります。素材作りも同じです。

量より、質と配合

ここで効くのは、量より、質と配合です。

大きくて汚い山より、小さくても、きれいで、よく混ざった素材のほうが、良いモデルになることがあります。量が多ければ必ず強くなる、という話ではありません。

第6回と補講(7)で、多いほど良いとは限らない、効率は近似との取引だ、という話をしました。あの話は、素材の側にもそのまま戻ってきます。

たくさん食べさせれば、確かに広く触れられます。けれども、汚れも増えます。重複も増えます。偏りも増えます。処理する費用も増えます。さらに、良いものと悪いものの区別が曖昧なまま量だけ増やすと、モデルは余計な癖まで覚えます。

反対に、よく整えた素材なら、少ない量でも効きます。

同じ内容を何度も食べるより、違う角度の良い説明を食べるほうが効きます。壊れた文章を大量に食べるより、短くても筋の通った文章を食べるほうが効きます。広く浅く混ぜるのか、狭く深く混ぜるのかも、目的によって変わります。

集めることより、整えることのほうが効きどころです。

そして、整えるのは地味です。手間がかかります。汚れに触れます。捨てるか残すかで迷います。目立つ成果に見えにくい仕事です。

けれども、この地味な仕事が、天井を決めています。

合成の素材は、諸刃

足りない素材を、モデル自身に作らせる手もあります。

実物が乏しい所を、作った文章で埋めます。珍しい問いを作る。答えを作る。手順を増やす。失敗例を足す。説明の言い換えを作る。これは便利です。

けれども、諸刃です。

自分や、別のモデルの出力で自分を鍛えると、味が薄まります。もともとの素材には、変なもの、珍しいもの、古いもの、粗いもの、遠回りなものが混ざっています。人間の文章には、余白や癖や飛躍があります。

作った文章は、そこがならされやすいです。読みやすく、平均的で、角の少ないものになりやすい。すると、多様だった素材が痩せていきます。珍しいものが消えます。極端な例が減ります。間違い方の幅も狭くなります。

自分の影を、食べ続けるようなものです。

さらに、補講(10)で見たとおり、作り手の癖まで継ぎます。作った側の偏り、言い回し、避け方、決めつけ方が、そのまま素材に混じります。きれいに見えるぶん、かえって気づきにくいのです。

もっと厄介なのは、世の中の「これはこういうものだ」という語りまで、素材に紛れ込むことです。

あるものについて、外から同じような説明が何度も書かれるとします。それをモデルが食べます。すると、その語られ方を、事実のように覚えます。やがて、答えの中でも同じ語りを繰り返します。繰り返された語りは、さらに次の素材に入り込みます。

こうして、思い込みが、現実のような顔をします。

合成の素材は、薬味にはなります。足りない場所を補うこともできます。苦手な形を練習する助けにもなります。

けれども、主食にはできません。主食にすると、味が薄まり、癖が濃くなり、世界が狭くなります。

食べたものでできている ―― そして

まとめます。

モデルは、食べたものでできています。

生の山を集める。重複を除く。汚れを濾す。配合を決める。量だけを増やすのではなく、質と配合を見る。合成の素材は、ほどほどに使う。

鍛える環や、縮める工夫より、もっと手前で、この素材が天井を決めています。

だから、素材こそが、本当の製品です。

鍛え方や、形は、だんだん世の中に共有されていきます。やり方は説明できます。手順もまねできます。部品も似てきます。

けれども、何を集め、何を捨て、何を残し、どれだけ混ぜたかは、そう簡単にはまねできません。そこには、長い判断の積み重ねがあります。汚れを見た経験があります。失敗して捨て直した跡があります。目的に合わせた配合の勘があります。

最後に残る差は、ここにあります。

これで、底の素材まで降りました。

次は、底から、上の現場へ戻ります。鍛え終えたモデルを毎回使うとき、同じ前置きを何度も読み直さずに済ませる工夫です。前置きを取っておいて、使い回す話へ進みます。

補講は、まだ続く。

← 一覧へ

Agentic OS 技術スタックを下から読む 補講(11)：モデルは、食べたものでできている ―― 鍛える前の、素材の作り方

Agentic OS 技術スタックを下から読む 補講(11)：モデルは、食べたものでできている ―― 鍛える前の、素材の作り方

続・底へ ―― 鍛える前の、素材

集めただけでは、素材にならない

重複を除く ―― 同じものを、何度も覚えない

汚れを濾す ―― 食べさせないものを決める

配合を決める ―― 何を、どれだけ

量より、質と配合

合成の素材は、諸刃

食べたものでできている ―― そして

関連記事

Agentic OS 技術スタックを下から読む補講(11)：モデルは、食べたものでできている ―― 鍛える前の、素材の作り方

Agentic OS 技術スタックを下から読む補講(11)：モデルは、食べたものでできている ―― 鍛える前の、素材の作り方