AIウォッチ / 連載

Agentic OS:技術スタックを下から読む28本

計算資源から垂直応用まで、本番のエージェント基盤を OS の階層として下から読み解く連載。

AIコーディング & エージェント深掘り

Agentic OS 技術スタックを下から読む 第0回:エージェント基盤はなぜ OS に近づくのか

この一年で、「エージェント」という言葉の重心が変わった。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む 第1回:推論のコストは、黒板で逆算できる

Agentic OS を下から読むなら、最初に見るべきものはモデルの賢さではない。推論の値段と速度である。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む 第2回:GPU を遊ばせない ―― 非同期の連続バッチ処理

前回は、推論のコストをどこから見るかを整理した。大きく効いているのは、計算そのものだけではない。重みを読むメモリ帯域、同時に処理するリクエスト数、途中結果を持ち続けるための領域が、生成の速度と費用を決めていた。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む 第3回:一枚に載らないモデルを、どう分けて配るか

前回までは、モデルが一枚の GPU に収まっているものとして話を進めてきた。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む 第4回:KV キャッシュを小さくする ―― 頭を減らすか、圧縮するか

前回までで、推論コストの見え方を下から見てきた。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む 第5回:過去のどこまでを見るか ―― 固定窓と、学習で選ぶ注意

前回は、長文脈の値段を決める KV キャッシュを、モデル構造の側から小さくする方法を見た。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む 第6回:層をまたいで使い回す ―― 効率化は、近似との取引である

前回まで、長い文脈を扱うときに何が重くなるのかを見てきた。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む 第7回:大半を、もっと軽い仕組みに置き換える ―― ハイブリッドという組み立て

前回まで、長い文脈を扱うときの工夫を見てきた。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む 第8回:考える力は、どう教えられたか ―― 検証できる答えで鍛える

ここまで数回は、モデルを効率の側から見てきた。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む 第9回:答える時間を、もっと使う ―― 推論時に計算を足す

前回は、考える力をどう鍛えるかを見た。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む 第10回:世界モデルとは何か ―― 次の「状態」を予測し、想像の中で試す

第8回では、モデルに考える力をどう鍛えるかを見た。第9回では、答えを出す時間に計算を足すことで、推論を強くする考え方を見た。

AIコーディング & エージェント深掘り

Agentic OS 技術スタックを下から読む 第11回:手を動かさせる前に ―― サンドボックスという「縛られた実行環境」

ここまでの回では、主にモデルそのものを見てきた。

AIコーディング & エージェント深掘り

Agentic OS 技術スタックを下から読む 第12回:エージェントの記憶 ―― 保存ではなく「なぜそうしたか」を残す

前回は、エージェントに手を動かさせるための実行環境を見た。

AIコーディング & エージェント深掘り

Agentic OS 技術スタックを下から読む 第13回:一体から複数へ ―― 難所は「間」にあり、実行ツリーで見る

前回まで見てきたのは、一体のエージェントをどう安全に走らせるかだった。

AIコーディング & エージェント深掘り

Agentic OS 技術スタックを下から読む 第14回:段を重ねるほど崩れる ―― 信頼性の崖と、編成の型

前回は、複数のエージェントが動くとき、その難しさは個々の点よりも「間」に出る、という話をした。

AIコーディング & エージェント深掘り

Agentic OS 技術スタックを下から読む 第15回:道具の呼び出しは、分散システムへの呼び出しである

前回は、L4 の編成を「長い鎖を短く区切る」ものとして見た。

AIコーディング & エージェント深掘り

Agentic OS 技術スタックを下から読む 第16回:注入攻撃 ―― なぜ、データを読むだけで乗っ取られるのか

ここまでの数回で、エージェントを「賢い」だけのものから、「任せられる」ものへ近づけてきた。

AIコーディング & エージェント深掘り

Agentic OS 技術スタックを下から読む 第17回:注入をどう防ぐか ―― 指示とデータの、硬い境界

前回は、注入がなぜ効くのかを見た。

AIコーディング & エージェント深掘り

Agentic OS 技術スタックを下から読む 第18回:本当にできているか、どう確かめるか ―― 答えではなく「たどった道」を読む

ここまで、エージェントをどう作るかを下から見てきた。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む 第19回:コールドスタート ―― 推論を「本当にサーバーレス」にする四段の早回し

第1回から第3回では、推論コストの中心にある単純な事実を見た。GPU は高い。だから、確保した GPU を遊ばせると、そのまま損になる。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む 第20回:推論エンジンの中身 ―― KV を「ページ」として配る

第1回から第3回で、長文脈の値段は、かなりの部分を KV キャッシュが決める、と見た。KV は過去文脈のための作業場所であり、リクエストごとに固有である。重みのように、多くの利用者で割り勘しにくい。

AIコーディング & エージェント深掘り

Agentic OS 技術スタックを下から読む 第21回:指標は、目標になると壊れる ―― エージェント評価の根の罠

第18回では、エージェントの評価は、最終出力だけを見ることではない、と書いた。どの道を通ったか。どこで迷ったか。失敗が偶然か、構造的なものか。それを読むことが評価の中心になる。そして、合格率が高すぎる評価は、むしろ警告だとも見た。

AIコーディング & エージェント深掘り

Agentic OS 技術スタックを下から読む 第22回:漏らすつもりがなくても漏れる ―― モザイク漏洩

L5 では、第16回で注入の正体を見た。第17回では、その防ぎ方を見た。あれは、外から命令を送り込まれる脅威だった。

AIコーディング & エージェント深掘り

Agentic OS 技術スタックを下から読む 第23回:同じ作業場を、共有させない ―― 隔離で並行を成り立たせる

第13回では、複数エージェントの不具合は、一体の中ではなく、エージェントとエージェントの「間」に出ると見た。原因の多くは、共有する資源での衝突だった。

AIコーディング & エージェント深掘り

Agentic OS 技術スタックを下から読む 第24回:記憶を、どこに持つか ―― 文脈・外部検索・小さな状態

第12回では、記憶とは、ただ保存することではなく、「なぜそうしたか」という因果を残す土台だ、と見た。あれは、何を残すかの話だった。

AIコーディング & エージェント深掘り

Agentic OS 技術スタックを下から読む 第25回:社会的に、だまされる ―― 有能なエージェントほど詐欺に弱い

L5 では、まず注入を見た。外から命令を送り込み、エージェントの判断を曲げる攻撃である。次に漏洩を見た。断片的な情報が、意図しない形で外へ出ていく攻撃である。

AIコーディング & エージェント深掘り

Agentic OS 技術スタックを下から読む 第26回:権限を「道具」ではなく「能力」に貼る ―― 安全を下から支える許可の設計

前回は、よく働くエージェントほど、言葉でだまされる危険も大きくなるという話で終わりました。社会的にだまされるエージェントを前提にして、権限、確認、経路、監査、停止条件を組み直す、と…

AIコーディング & エージェント深掘り

Agentic OS 技術スタックを下から読む 第27回:仕様は、長く書くほど効くわけではない ―― 注意の予算と、段階に割る設計

ここまでは、権限をどう絞るかを見てきました。できる操作を絞り、届く場所を絞り、通ってよい経路を絞ることで、エージェントが越えてはいけない線を下の層から作りました。今回は少し上へ戻り…