AIウォッチ / 連載
計算資源から垂直応用まで、本番のエージェント基盤を OS の階層として下から読み解く連載。
この一年で、「エージェント」という言葉の重心が変わった。
Agentic OS を下から読むなら、最初に見るべきものはモデルの賢さではない。推論の値段と速度である。
前回は、推論のコストをどこから見るかを整理した。大きく効いているのは、計算そのものだけではない。重みを読むメモリ帯域、同時に処理するリクエスト数、途中結果を持ち続けるための領域が、生成の速度と費用を決めていた。
前回までは、モデルが一枚の GPU に収まっているものとして話を進めてきた。
前回までで、推論コストの見え方を下から見てきた。
前回は、長文脈の値段を決める KV キャッシュを、モデル構造の側から小さくする方法を見た。
前回まで、長い文脈を扱うときに何が重くなるのかを見てきた。
前回まで、長い文脈を扱うときの工夫を見てきた。
ここまで数回は、モデルを効率の側から見てきた。
前回は、考える力をどう鍛えるかを見た。
第8回では、モデルに考える力をどう鍛えるかを見た。第9回では、答えを出す時間に計算を足すことで、推論を強くする考え方を見た。
ここまでの回では、主にモデルそのものを見てきた。
前回は、エージェントに手を動かさせるための実行環境を見た。
前回まで見てきたのは、一体のエージェントをどう安全に走らせるかだった。
前回は、複数のエージェントが動くとき、その難しさは個々の点よりも「間」に出る、という話をした。
前回は、L4 の編成を「長い鎖を短く区切る」ものとして見た。
ここまでの数回で、エージェントを「賢い」だけのものから、「任せられる」ものへ近づけてきた。
前回は、注入がなぜ効くのかを見た。