← 一覧へ
連載 Agentic OS:技術スタックを下から読む の一部です ―― 目次を見る →

Agentic OS 技術スタックを下から読む 補講(3):言葉を、文字でも単語でもない単位に刻む ―― いちばん下の、見えない物差し

この記事の読み方
前の補講では、画面を使って外のソフトを動かす話をしました。検索で外の知識を引く。画面を見て、押し、入力し、結果を読む。そこまで降りても、まだ上の層の話でした。

Agentic OS 技術スタックを下から読む 補講(3):言葉を、文字でも単語でもない単位に刻む ―― いちばん下の、見えない物差し

補講、三つ目

前の補講では、画面を使って外のソフトを動かす話をしました。検索で外の知識を引く。画面を見て、押し、入力し、結果を読む。そこまで降りても、まだ上の層の話でした。

補講は、まだ続く。

今回は、もっと下へ降ります。モデルが、言葉をどう受け取っているかです。

ここでまず、思い込みを外す必要があります。モデルは、文字をそのまま読んでいるわけではありません。人が思う単語を、そのまま読んでいるわけでもありません。文字と単語のあいだにある、短い断片へ刻んでから受け取っています。

この刻み方は、目立ちません。画面にも出ません。ふつうの文章を書くときにも意識しません。けれども、費用、窓の効き目、数字の扱い、別の言葉への不利、綴りの正確さまで、いちばん下で静かに決めています。

モデルは、文字も単語も見ていません

人は、文章を文字としても読めます。単語としても読めます。けれども、モデルに渡される時点では、文章は別の形に刻まれています。

たとえば、よくある短い言い回しや、よく出る綴りは、まとめて一つの断片になります。人が一語だと思うものが、そのまま一つの断片になることもあります。

一方で、珍しい名前、長い専門語、打ち間違い、見慣れない記号の並びは、細かく割られます。人には一語に見えても、モデルには三つの断片で届くことがあります。もっと珍しければ、五つにも六つにも割れます。

つまり、モデルにとっての「ひと区切り」は、人の感覚とずれています。人が自然に感じる境目と、モデルが受け取る境目は同じではありません。このずれが、あとでいろいろな癖になります。

第39回で、費用は入れる量と出す量で決まると見ました。第1回でも、長く使うほど重くなる土台の話をしました。その「量」は、画面上の文字数ではありません。この見えない断片の数です。

断片は、よく出たものから作られます

では、その断片の切り方は、誰が決めるのでしょうか。人が一つずつ辞書のように決めるわけではありません。大量の文章から、よく出る並びを拾って決めます。

機構は地味です。

最初は、文章をとても細かい単位に分けます。そこから、隣り合ってよく出る組を探します。よく隣に並ぶ二つを、一つの断片としてまとめます。まとめた結果を使って、また次によく出る組を探します。これを何度も繰り返します。

たとえば、ある並びが多くの文章で何度も出るなら、その並びは一つにまとめられやすくなります。逆に、めったに出ない並びは、最後まで細かいまま残りやすくなります。

こうして、決まった数の断片が作られます。その断片には、それぞれ符号が振られます。モデルの入口では、文章そのものではなく、この符号の列が渡されます。

大事なのは、ここです。何が一塊になるかは、意味だけでは決まりません。きれいな文法だけでも決まりません。どの並びが、学ぶために集めた文章の中でよく出たかで決まります。

世界で多く出た形は、短い道で届きます。少なかった形は、細かく割れて届きます。頻度が、そのまま底の物差しになります。

費用は、文字数ではなく、刻みの数です

ここから、実用の話になります。

費用は、見た目の文字数ではなく、刻みの数で決まります。同じ長さに見える文章でも、よくある言い回しなら少ない断片で済みます。珍しい言い回しなら、たくさんの断片になります。

よく使われる短い表現は、一刻みで届くことがあります。すると安い。窓の中でも場所を取りません。

しかし、長い専門語、まれな固有風の綴り、変な区切り、打ち間違いは違います。ひとかたまりに見えても、内部で細かく割られます。人が一語と思って入力したものが、モデルには三つの断片で届く。すると、その一語だけで三つ分の場所を取ります。

同じ内容を伝えても、刻まれ方しだいで費用が変わります。短く書いたつもりでも、珍しい並びを多く含めば高くつきます。逆に、少し長く見えても、ありふれた断片で組まれていれば軽く済むことがあります。

第27回と第44回で見た窓の効き目も、ここに直結します。窓は文字を入れる箱ではありません。断片を入れる箱です。したがって、細かく割れやすい文章は、同じ窓でも実質的に入る量が減ります。

前に、生むほうが高いと話しました。出力では、断片を一つずつ作るからです。その一段下に、そもそも何を一つと数えるかという刻みがありました。

数字と、言葉の不公平

この刻みは、数字にも癖を作ります。

人は数字を見ると、桁で考えます。千の位、百の位、十の位、一の位というように、きれいな構造があるように見ます。けれども、モデルに渡る断片は、必ずしも桁に沿って割れません。

よく出た数字の並びは、そこで一つの断片になることがあります。別の数字列は、妙な位置で割れます。三桁ごと、四桁ごと、という整った割れ方になるとは限りません。

そのため、数字は意味のある桁のまとまりとして届かないことがあります。計算で、途中の桁を正しく扱うには、どの桁がどの重みを持つかを保つ必要があります。ところが入口で、数字列が頻度にもとづく断片に切られている。桁の構造をそのまま持っていない。計算が危うくなる理由の一端は、ここにあります。

もう一つは、言葉ごとの不公平です。

断片の作り方は、多くの場合、ある一つの言語の文章に強く寄ります。その言語でよく出る並びは、一つの断片になりやすい。だから短い符号で済みます。

しかし、別の言葉では事情が変わります。同じ意味の一文でも、細かく割られることがあります。結果として、刻みの数が二倍から数倍になることがあります。

これは、ただの使い勝手の差ではありません。費用が上がります。同じ窓に入る実質の量が減ります。長い説明を入れたいとき、早く窓からあふれます。

上の層で公平に扱おうとしても、いちばん下の刻みがすでに偏っていることがあります。底の物差しが違えば、上の広さも違って見えます。

境目には、奇妙な癖があります

刻みの癖は、もっと細かいところにも出ます。

同じ言葉でも、前に空白があるかどうかで、別の断片になることがあります。文の先頭にある場合と、前の語に続いている場合で、入口の符号が変わるからです。

大文字か小文字かでも変わります。人には、ほとんど同じ言葉に見えるものでも、モデルには別の断片として届くことがあります。

たとえば、人が見れば「同じ語の書き方違い」だとすぐ分かるものがあります。しかし、底では別の符号です。似た働きを学ぶには、その二つが多くの場面で近い使われ方をしている必要があります。十分に見ていなければ、別物として扱われやすくなります。

だから、ほんの少しの書式の違いが、出力の安定に効くことがあります。空白を入れる。改行を変える。表記をそろえる。こうした小さな整え方が効くのは、読みやすさだけの問題ではありません。刻みの境目が変わり、入口の符号列が変わるからです。

人にはなめらかな文字列に見えても、モデルの入口には段差があります。その段差が、見えないまま働きます。

一つの断片の中は、見えていません

さらに重要なことがあります。

一つの断片として届いたものの中身は、モデルから細かく見えていません。入口で一塊の符号になった時点で、その内側の文字は直接の形では残りません。

もちろん、学習の中で、その断片がどのような場面で使われるかは身につきます。意味や用法は扱えます。けれども、その断片を構成する一文字一文字を、いつも自由に取り出して見ているわけではありません。

だから、綴りを一文字ずつ言わせると危うくなります。文字数を数えさせると間違えることがあります。ある語に同じ文字がいくつあるかを聞くと、平気で外すことがあります。

不思議に見えます。長い説明はできるのに、短い語の文字数を間違えるからです。

しかし、入口の仕組みを考えると筋が通ります。モデルは、その語を文字の列として受け取っていません。一つ、または少数の断片として受け取っています。見えていないものは、数えにくいのです。あとから塊を割ろうとしても、入口で見ていた粒度とは違います。

賢さの失敗ではなく、見ている単位の失敗です。

刻みは、言葉に対する目です

まとめます。

刻みは、モデルの言葉に対する目です。何を一つの単位として見るか。何を細かく割るか。何を短い符号で渡すか。これを、いちばん下で一度決めます。そして、めったに作り直しません。

なのに、その一度の刻みに、費用も、窓の効き目も、数字の扱いも、言葉ごとの不公平も、綴りの正確さも左右されます。

大きく刻めば、断片の数は減ります。費用は下がりやすい。窓にも多く入ります。けれども、符号の表は膨らみます。珍しい断片は出番が少なくなり、鍛わりにくくなります。

細かく刻めば、一つひとつの断片はよく出ます。鍛えやすくなります。珍しい綴りにも対応しやすくなります。けれども、断片の数が増えます。費用は上がります。窓の中で場所を取ります。

ここにも、第6回と第32回で何度も見た、近似との取引があります。全部をそのまま扱うことはできません。どこかで粗く見る。どこかでまとめる。そのまとめ方が、あとで能力の凸凹になります。

第47回で見たように、言葉以外のものも同じ場へ持ち込むとき、最後には何らかの単位へ置き換えられます。画像でも音でも操作でも、モデルに届く前に刻まれます。今回見た言葉の刻みは、そのいちばん基本の例です。

いちばん下の、見えない物差し。

上で見てきた費用も、窓も、能力の凸凹も、その多くがここに乗っていました。土台の底を覗くと、賢さの手前に、この地味な刻みが座っています。

補講は、まだ続く。

← 一覧へ