AIウォッチ / 連載
計算資源から垂直応用まで、本番のエージェント基盤を OS の階層として下から読み解く連載。
この一年で、「エージェント」という言葉の重心が変わった。
Agentic OS を下から読むなら、最初に見るべきものはモデルの賢さではない。推論の値段と速度である。
前回は、推論のコストをどこから見るかを整理した。大きく効いているのは、計算そのものだけではない。重みを読むメモリ帯域、同時に処理するリクエスト数、途中結果を持ち続けるための領域が、生成の速度と費用を決めていた。
前回までは、モデルが一枚の GPU に収まっているものとして話を進めてきた。
前回までで、推論コストの見え方を下から見てきた。
前回は、長文脈の値段を決める KV キャッシュを、モデル構造の側から小さくする方法を見た。
前回まで、長い文脈を扱うときに何が重くなるのかを見てきた。
前回まで、長い文脈を扱うときの工夫を見てきた。
ここまで数回は、モデルを効率の側から見てきた。
前回は、考える力をどう鍛えるかを見た。
第8回では、モデルに考える力をどう鍛えるかを見た。第9回では、答えを出す時間に計算を足すことで、推論を強くする考え方を見た。
ここまでの回では、主にモデルそのものを見てきた。
前回は、エージェントに手を動かさせるための実行環境を見た。
前回まで見てきたのは、一体のエージェントをどう安全に走らせるかだった。
前回は、複数のエージェントが動くとき、その難しさは個々の点よりも「間」に出る、という話をした。
前回は、L4 の編成を「長い鎖を短く区切る」ものとして見た。
ここまでの数回で、エージェントを「賢い」だけのものから、「任せられる」ものへ近づけてきた。
前回は、注入がなぜ効くのかを見た。
ここまで、エージェントをどう作るかを下から見てきた。
第1回から第3回では、推論コストの中心にある単純な事実を見た。GPU は高い。だから、確保した GPU を遊ばせると、そのまま損になる。
第1回から第3回で、長文脈の値段は、かなりの部分を KV キャッシュが決める、と見た。KV は過去文脈のための作業場所であり、リクエストごとに固有である。重みのように、多くの利用者で割り勘しにくい。
第18回では、エージェントの評価は、最終出力だけを見ることではない、と書いた。どの道を通ったか。どこで迷ったか。失敗が偶然か、構造的なものか。それを読むことが評価の中心になる。そして、合格率が高すぎる評価は、むしろ警告だとも見た。
L5 では、第16回で注入の正体を見た。第17回では、その防ぎ方を見た。あれは、外から命令を送り込まれる脅威だった。
第13回では、複数エージェントの不具合は、一体の中ではなく、エージェントとエージェントの「間」に出ると見た。原因の多くは、共有する資源での衝突だった。
第12回では、記憶とは、ただ保存することではなく、「なぜそうしたか」という因果を残す土台だ、と見た。あれは、何を残すかの話だった。
L5 では、まず注入を見た。外から命令を送り込み、エージェントの判断を曲げる攻撃である。次に漏洩を見た。断片的な情報が、意図しない形で外へ出ていく攻撃である。
前回は、よく働くエージェントほど、言葉でだまされる危険も大きくなるという話で終わりました。社会的にだまされるエージェントを前提にして、権限、確認、経路、監査、停止条件を組み直す、と…
ここまでは、権限をどう絞るかを見てきました。できる操作を絞り、届く場所を絞り、通ってよい経路を絞ることで、エージェントが越えてはいけない線を下の層から作りました。今回は少し上へ戻り…