Agentic OS 技術スタックを下から読む 補講(7):意味を、座標にする ―― 埋め込みという、意味の地面
補講は、一度閉じました。補講(6)で、ここで補講も閉じる、と書きました。
Agentic OS 技術スタックを下から読む 補講(7):意味を、座標にする ―― 埋め込みという、意味の地面
閉じた補講を、もう一段開く
補講は、一度閉じました。補講(6)で、ここで補講も閉じる、と書きました。
ですが、底にまだ触れていない土台があります。
検索のときも、見ることのときも、私は何度も言いました。意味の近さを、比べられる数値に畳む。近い意味のものを、近くに置く。読むものと見るものを、同じ土俵に乗せる。
けれど、その数値そのものを、まだ開いていませんでした。
今回は、そこを開きます。埋め込みです。意味が、どうやって座標になるのか。言葉や文書が、どうやって空間の中の一点になるのか。補講をもう一段、下へ降ります。
意味を、座標にする
埋め込みとは、言葉や文書を、たくさんの数の並びに変えることです。
たとえば、ある言葉を、三百個の数で表すとします。その三百個の数は、三百本の軸を持つ空間の中の一点です。紙の上なら、横と縦の二つの数で場所を表せます。埋め込みでは、それよりずっと多い軸で、意味の場所を表します。
一つの言葉に、一つの点があります。一つの文にも、一つの点を作れます。一つの記事にも、一つの点を作れます。
大事なのは、近い点ほど、近い意味だと扱うことです。
「医者」と「看護師」が近くに置かれれば、機械は、この二つを似た領域の言葉として扱えます。「医者」と「岩石」が遠くに置かれれば、違う領域の言葉として扱えます。
意味は、そのままでは測れません。ですが、座標になれば測れます。二つの点がどれくらい近いかを計算できます。補講(1)で見た「意味で探す」検索は、この変換の上に乗っていました。
近さは、付き合う相手で決まる
では、どうやって、近い意味の言葉を近くに置くのでしょうか。
人が一語ずつ意味を教えるわけではありません。辞書の説明をそのまま写すわけでもありません。手がかりは、付き合う相手です。
ある言葉が、どんな言葉の近くに出てくるかを見ます。
「医者」は、病院、患者、診察、薬、手術のような言葉と一緒に出やすいです。「看護師」も、病院、患者、診察、薬、手術の近くに出やすいです。だから、この二つは似た顔ぶれに囲まれています。
一方で、「岩石」は、山、地層、鉱物、川、採取のような言葉と出やすいです。「医者」とは、付き合う相手がかなり違います。だから、遠くに置かれます。
ここで起きていることは単純です。意味を直接見ているのではありません。周囲の顔ぶれを見ています。同じような場に現れる言葉は、同じような役割を持つことが多い。その積み重ねから、意味の近さが立ち上がります。
補講(3)で見た刻みは、「何を一単位として見るか」の話でした。単語なのか、短いまとまりなのか、文なのか。埋め込みは、その単位を、意味の空間のどこに置くかの話です。
近さは、長さではなく向きで測る
二つの点の近さは、どう測るのでしょうか。
よく使われる考え方では、長さよりも向きを見ます。原点から見て、二つの点が同じ方向を向いていれば、近い意味だと考えます。逆の方向を向いていれば、遠いと考えます。
なぜ、長さではないのでしょうか。
言葉には、出る回数の差があります。よく出る言葉は、学習の中で強く押されます。まれな言葉は、押される回数が少なくなります。そのため、点の長さには、意味だけでなく、出やすさの差が混ざります。
長さをそのまま比べると、よく出る言葉が有利になります。意味が近いかどうかより、出る回数の違いに引きずられます。
向きで見ると、その影響を減らせます。点がどれだけ遠くまで伸びているかではなく、どちらを向いているかを見るからです。これは、言葉の勢いではなく、意味の方向を比べるための工夫です。
つまり、埋め込みの空間では、点そのものよりも、原点からの方向が大きな意味を持ちます。
向きそのものが、概念を背負う
おもしろいのは、ここからです。
埋め込みは、似たものを近くに置くだけでは終わりません。空間の中の向きそのものが、概念を背負うことがあります。
たとえば、ある方向が、男と女の違いを表すことがあります。別の方向が、過去と未来の違いを表すことがあります。別の方向が、職業と場所の関係を表すこともあります。
このとき、意味は足し引きできる量になります。
「王」を表す点から、「男」の方向を引きます。そこに、「女」の方向を足します。すると、「女王」に近い場所へ行きます。
これは、言葉遊びではありません。多くの言葉の配置の中に、似た関係が何度も出てくるためです。父と母、兄と姉、男優と女優のような差が、空間の中で似た方向としてそろいます。だから、一つの組み合わせで見えた方向が、別の組み合わせにも効きます。
意味の地図は、ただの置き場ではありません。方向が、関係を持ちます。点と点の差が、概念の差になります。
軸は、コーパスの大きな模様から積まれる
では、その軸は、どこから来るのでしょうか。
魔法ではありません。元になる文章の集まりにある、大きな偏りから来ます。ここでいうコーパスとは、学習に使う大量の文章の集まりです。
どの言葉が、どの言葉と一緒に出るか。その表を、巨大に作るとします。行に言葉を置き、列にも言葉を置きます。ある言葉どうしが近くに出やすければ、大きな値になります。あまり一緒に出なければ、小さな値になります。
この巨大な表には、模様があります。人物の説明に関係する言葉が、まとまって動くことがあります。行政に関係する言葉が、別のまとまりとして動くことがあります。地理に関係する言葉が、また別のまとまりとして動くことがあります。
埋め込みの軸は、そうした大きな模様を、順に取り出すように作られます。まず、いちばん大きく効く偏りを一本の軸にします。次に、残った中で二番目に大きい偏りを、別の軸にします。さらに次を積みます。
ある実験では、上から順に、人物の伝記にまつわる言葉、行政にまつわる言葉、地理にまつわる言葉が、人にも読める形で軸に現れました。これは、軸が最初から名札を持っていたからではありません。文章の集まりの中で、その偏りが大きかったからです。
意味の地図は、文章の集まりの写し絵です。そこに多く出る関係は、太い軸になります。そこに薄くしか出ない関係は、細い軸になります。
鍛えすぎると、濁る
ただし、鍛えれば鍛えるほど良くなる、ではありません。
学習の早い段階では、大きな意味の信号が先に立ち上がります。医療に関係するまとまり。地理に関係するまとまり。人物に関係するまとまり。よく使われる関係ほど、早く形になります。
しかし、後半になると、細かな偶然まで拾いはじめます。たまたま近くに出ただけの言葉。元の文章にだけある癖。少数の例にしかない偏り。そうしたものまで、空間に刻まれていきます。
すると、最初に立っていたきれいな方向が濁ることがあります。近づけるべきでないものが近づきます。離すべきでないものが離れます。意味の地図が、元の文章の細かな傷まで写しすぎるのです。
これは、第37回で見た、物差しが古びる話に似ています。いま測りたい世界と、物差しを作った時点の世界がずれると、測定が濁ります。第6回で見た、効率は近似との取引だという話にもつながります。全部を細かく拾えば正しくなるのではありません。何を捨てるかで、使いやすさが決まります。
埋め込みにも、止めどころがあります。意味の信号が強く、雑音がまだ勝っていない所を見つける必要があります。
埋め込みは、意味の地面 ―― そして
まとめます。
埋め込みとは、意味を座標にすることです。言葉や文書を、数の並びに変え、空間の中の一点として置きます。近い点ほど、近い意味だと扱います。
その近さは、付き合う相手から学ばれます。同じような言葉に囲まれて出るものは、近くに置かれます。近さは、長さよりも向きで測られます。向きそのものが、男と女、過去と未来のような概念を背負うことがあります。軸は、文章の集まりにある大きな模様から、順に積まれます。
補講(1)の検索で「意味で探す」と言ったとき、その下には、この地面がありました。補講(3)の刻みが「何を一つの単位として見るか」なら、埋め込みは「その単位を、意味のどこに置くか」です。第47回で見た、見るものと読むものを同じ土俵に乗せる話も、この考えの延長にあります。
一度閉じた補講を、もう一段、底まで開きました。
ですが、底はまだ続きます。次は、モデルの中で、どの専門家にその一点を渡すかです。つまり、道を選ぶ仕組みへ降ります。
補講は、まだ続きます。
← 一覧へ