Agentic OS 技術スタックを下から読む 補講(3):言葉を、文字でも単語でもない単位に刻む ―― いちばん下の、見えない物差し
前の補講では、画面を使って外のソフトを動かす話をしました。検索で外の知識を引く。画面を見て、押し、入力し、結果を読む。そこまで降りても、まだ上の層の話でした。
Agentic OS 技術スタックを下から読む 補講(3):言葉を、文字でも単語でもない単位に刻む ―― いちばん下の、見えない物差し
補講、三つ目
前の補講では、画面を使って外のソフトを動かす話をしました。検索で外の知識を引く。画面を見て、押し、入力し、結果を読む。そこまで降りても、まだ上の層の話でした。
補講は、まだ続く。
今回は、もっと下へ降ります。モデルが、言葉をどう受け取っているかです。
ここでまず、思い込みを外す必要があります。モデルは、文字をそのまま読んでいるわけではありません。人が思う単語を、そのまま読んでいるわけでもありません。文字と単語のあいだにある、短い断片へ刻んでから受け取っています。
この刻み方は、目立ちません。画面にも出ません。ふつうの文章を書くときにも意識しません。けれども、費用、窓の効き目、数字の扱い、別の言葉への不利、綴りの正確さまで、いちばん下で静かに決めています。
モデルは、文字も単語も見ていません
人は、文章を文字としても読めます。単語としても読めます。けれども、モデルに渡される時点では、文章は別の形に刻まれています。
たとえば、よくある短い言い回しや、よく出る綴りは、まとめて一つの断片になります。人が一語だと思うものが、そのまま一つの断片になることもあります。
一方で、珍しい名前、長い専門語、打ち間違い、見慣れない記号の並びは、細かく割られます。人には一語に見えても、モデルには三つの断片で届くことがあります。もっと珍しければ、五つにも六つにも割れます。
つまり、モデルにとっての「ひと区切り」は、人の感覚とずれています。人が自然に感じる境目と、モデルが受け取る境目は同じではありません。このずれが、あとでいろいろな癖になります。
第39回で、費用は入れる量と出す量で決まると見ました。第1回でも、長く使うほど重くなる土台の話をしました。その「量」は、画面上の文字数ではありません。この見えない断片の数です。
断片は、よく出たものから作られます
では、その断片の切り方は、誰が決めるのでしょうか。人が一つずつ辞書のように決めるわけではありません。大量の文章から、よく出る並びを拾って決めます。
機構は地味です。
最初は、文章をとても細かい単位に分けます。そこから、隣り合ってよく出る組を探します。よく隣に並ぶ二つを、一つの断片としてまとめます。まとめた結果を使って、また次によく出る組を探します。これを何度も繰り返します。
たとえば、ある並びが多くの文章で何度も出るなら、その並びは一つにまとめられやすくなります。逆に、めったに出ない並びは、最後まで細かいまま残りやすくなります。
こうして、決まった数の断片が作られます。その断片には、それぞれ符号が振られます。モデルの入口では、文章そのものではなく、この符号の列が渡されます。
大事なのは、ここです。何が一塊になるかは、意味だけでは決まりません。きれいな文法だけでも決まりません。どの並びが、学ぶために集めた文章の中でよく出たかで決まります。
世界で多く出た形は、短い道で届きます。少なかった形は、細かく割れて届きます。頻度が、そのまま底の物差しになります。
費用は、文字数ではなく、刻みの数です
ここから、実用の話になります。
費用は、見た目の文字数ではなく、刻みの数で決まります。同じ長さに見える文章でも、よくある言い回しなら少ない断片で済みます。珍しい言い回しなら、たくさんの断片になります。
よく使われる短い表現は、一刻みで届くことがあります。すると安い。窓の中でも場所を取りません。
しかし、長い専門語、まれな固有風の綴り、変な区切り、打ち間違いは違います。ひとかたまりに見えても、内部で細かく割られます。人が一語と思って入力したものが、モデルには三つの断片で届く。すると、その一語だけで三つ分の場所を取ります。
同じ内容を伝えても、刻まれ方しだいで費用が変わります。短く書いたつもりでも、珍しい並びを多く含めば高くつきます。逆に、少し長く見えても、ありふれた断片で組まれていれば軽く済むことがあります。
第27回と第44回で見た窓の効き目も、ここに直結します。窓は文字を入れる箱ではありません。断片を入れる箱です。したがって、細かく割れやすい文章は、同じ窓でも実質的に入る量が減ります。
前に、生むほうが高いと話しました。出力では、断片を一つずつ作るからです。その一段下に、そもそも何を一つと数えるかという刻みがありました。
数字と、言葉の不公平
この刻みは、数字にも癖を作ります。
人は数字を見ると、桁で考えます。千の位、百の位、十の位、一の位というように、きれいな構造があるように見ます。けれども、モデルに渡る断片は、必ずしも桁に沿って割れません。
よく出た数字の並びは、そこで一つの断片になることがあります。別の数字列は、妙な位置で割れます。三桁ごと、四桁ごと、という整った割れ方になるとは限りません。
そのため、数字は意味のある桁のまとまりとして届かないことがあります。計算で、途中の桁を正しく扱うには、どの桁がどの重みを持つかを保つ必要があります。ところが入口で、数字列が頻度にもとづく断片に切られている。桁の構造をそのまま持っていない。計算が危うくなる理由の一端は、ここにあります。
もう一つは、言葉ごとの不公平です。
断片の作り方は、多くの場合、ある一つの言語の文章に強く寄ります。その言語でよく出る並びは、一つの断片になりやすい。だから短い符号で済みます。
しかし、別の言葉では事情が変わります。同じ意味の一文でも、細かく割られることがあります。結果として、刻みの数が二倍から数倍になることがあります。
これは、ただの使い勝手の差ではありません。費用が上がります。同じ窓に入る実質の量が減ります。長い説明を入れたいとき、早く窓からあふれます。
上の層で公平に扱おうとしても、いちばん下の刻みがすでに偏っていることがあります。底の物差しが違えば、上の広さも違って見えます。
境目には、奇妙な癖があります
刻みの癖は、もっと細かいところにも出ます。
同じ言葉でも、前に空白があるかどうかで、別の断片になることがあります。文の先頭にある場合と、前の語に続いている場合で、入口の符号が変わるからです。
大文字か小文字かでも変わります。人には、ほとんど同じ言葉に見えるものでも、モデルには別の断片として届くことがあります。
たとえば、人が見れば「同じ語の書き方違い」だとすぐ分かるものがあります。しかし、底では別の符号です。似た働きを学ぶには、その二つが多くの場面で近い使われ方をしている必要があります。十分に見ていなければ、別物として扱われやすくなります。
だから、ほんの少しの書式の違いが、出力の安定に効くことがあります。空白を入れる。改行を変える。表記をそろえる。こうした小さな整え方が効くのは、読みやすさだけの問題ではありません。刻みの境目が変わり、入口の符号列が変わるからです。
人にはなめらかな文字列に見えても、モデルの入口には段差があります。その段差が、見えないまま働きます。
一つの断片の中は、見えていません
さらに重要なことがあります。
一つの断片として届いたものの中身は、モデルから細かく見えていません。入口で一塊の符号になった時点で、その内側の文字は直接の形では残りません。
もちろん、学習の中で、その断片がどのような場面で使われるかは身につきます。意味や用法は扱えます。けれども、その断片を構成する一文字一文字を、いつも自由に取り出して見ているわけではありません。
だから、綴りを一文字ずつ言わせると危うくなります。文字数を数えさせると間違えることがあります。ある語に同じ文字がいくつあるかを聞くと、平気で外すことがあります。
不思議に見えます。長い説明はできるのに、短い語の文字数を間違えるからです。
しかし、入口の仕組みを考えると筋が通ります。モデルは、その語を文字の列として受け取っていません。一つ、または少数の断片として受け取っています。見えていないものは、数えにくいのです。あとから塊を割ろうとしても、入口で見ていた粒度とは違います。
賢さの失敗ではなく、見ている単位の失敗です。
刻みは、言葉に対する目です
まとめます。
刻みは、モデルの言葉に対する目です。何を一つの単位として見るか。何を細かく割るか。何を短い符号で渡すか。これを、いちばん下で一度決めます。そして、めったに作り直しません。
なのに、その一度の刻みに、費用も、窓の効き目も、数字の扱いも、言葉ごとの不公平も、綴りの正確さも左右されます。
大きく刻めば、断片の数は減ります。費用は下がりやすい。窓にも多く入ります。けれども、符号の表は膨らみます。珍しい断片は出番が少なくなり、鍛わりにくくなります。
細かく刻めば、一つひとつの断片はよく出ます。鍛えやすくなります。珍しい綴りにも対応しやすくなります。けれども、断片の数が増えます。費用は上がります。窓の中で場所を取ります。
ここにも、第6回と第32回で何度も見た、近似との取引があります。全部をそのまま扱うことはできません。どこかで粗く見る。どこかでまとめる。そのまとめ方が、あとで能力の凸凹になります。
第47回で見たように、言葉以外のものも同じ場へ持ち込むとき、最後には何らかの単位へ置き換えられます。画像でも音でも操作でも、モデルに届く前に刻まれます。今回見た言葉の刻みは、そのいちばん基本の例です。
いちばん下の、見えない物差し。
上で見てきた費用も、窓も、能力の凸凹も、その多くがここに乗っていました。土台の底を覗くと、賢さの手前に、この地味な刻みが座っています。
補講は、まだ続く。
← 一覧へ