モデル・推論基盤｜ AIウォッチ

モデル・LLM 26本

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む補講(15)：手元の機体 ―― 端末で動かす、四つの理由と二つの壁

補講(14)では、書き出しの遅さを投機で買い戻す話をしました。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む補講(16)：好みへ寄せる二本道 ―― 代理を立てるか、立てないか

補講(15)では、端末で小さく賢く動かす話をしました。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第32回：賢さを、より少ないビットで積む ―― 量子化と、近似の取引

前回は、外の現場の第二面として、失敗を戻せる形に保つ設計を見ました。外へ出た処理は、ただ速く進めばよいわけではありません。間違えたときに止まり、戻り、やり直せる必要があります。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第33回：ゼロから鍛えるとき、効くのは派手な工夫ではない ―― 静かに失敗する訓練を、一段ずつ確かめる

前回は、できあがった賢さを少ないビットに載せる話をしました。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第41回：検証できない好みを、どう教えるか ―― 選好の対と、報酬の代理と、その綻び

前回は、道具の設計を見ました。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第43回：次の言葉と、次の状態は違う ―― 世界モデルは、抽象の層で先を読む

前回は、代理人としてのエージェントを見ました。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第47回：見ることと聞くことを、言葉と同じ場で扱う ―― 翻訳官を挟むか、主役に直接見せるか

前回は、信頼性の崖をどう越えるかを見ました。仕事を細かく分け、途中で確かめ、崩れる前に止める話でした。結びでは、次回はまた別の層の急所へ降りる、と書きました。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む補講(3)：言葉を、文字でも単語でもない単位に刻む ―― いちばん下の、見えない物差し

前の補講では、画面を使って外のソフトを動かす話をしました。検索で外の知識を引く。画面を見て、押し、入力し、結果を読む。そこまで降りても、まだ上の層の話でした。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む補講(4)：一つのモデルを、多くの機械へ広げる ―― 計算は割れる、通信は割れない

前回は、言葉の刻みで、いちばん下を見ました。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む補講(7)：意味を、座標にする ―― 埋め込みという、意味の地面

補講は、一度閉じました。補講(6)で、ここで補講も閉じる、と書きました。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む補講(8)：全部に通さず、選んだ専門家だけに ―― 道を選ぶ門と、その難しさ

補講(7)では、埋め込みを見ました。言葉や文を、意味の一点に変える話でした。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む補講(9)：ご褒美で、振る舞いを変える ―― 試して・測って・少しだけ寄せる環

前回は、道を選ぶ門を見ました。問いが来たとき、どの専門家へ渡すか。その分かれ道を扱いました。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む補講(10)：先生の「自信の配り方」を移す ―― 蒸留は、惜しさまで教える

前回は、ご褒美で振る舞いを変える環を見ました。答えを出す。人の好みに近いかを見る。よい振る舞いに寄せる。そうして鍛えた大きなモデルは、賢くなります。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む補講(11)：モデルは、食べたものでできている ―― 鍛える前の、素材の作り方

補講(10)では、蒸留を見ました。

モデル・推論基盤深掘り

Agentic OS を、取引で読み直す（6）：寄せると、痩せる ―― 活かすことと、探すことは、両立しない

前回まで、速さ・軽さ・量という、目に見える得の取引を見ました。

モデル・推論基盤深掘り

Agentic OS を、取引で読み直す（8）：多いほど良い、ではない ―― 量を足すより、質と配合を整える

前回まで、軽さ、速さ、鍛え方、任せ方の取引を見てきました。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第4回：KV キャッシュを小さくする ―― 頭を減らすか、圧縮するか

前回までで、推論コストの見え方を下から見てきた。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第5回：過去のどこまでを見るか ―― 固定窓と、学習で選ぶ注意

前回は、長文脈の値段を決める KV キャッシュを、モデル構造の側から小さくする方法を見た。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第6回：層をまたいで使い回す ―― 効率化は、近似との取引である

前回まで、長い文脈を扱うときに何が重くなるのかを見てきた。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第7回：大半を、もっと軽い仕組みに置き換える ―― ハイブリッドという組み立て

前回まで、長い文脈を扱うときの工夫を見てきた。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第8回：考える力は、どう教えられたか ―― 検証できる答えで鍛える

ここまで数回は、モデルを効率の側から見てきた。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第9回：答える時間を、もっと使う ―― 推論時に計算を足す

前回は、考える力をどう鍛えるかを見た。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第10回：世界モデルとは何か ―― 次の「状態」を予測し、想像の中で試す

第8回では、モデルに考える力をどう鍛えるかを見た。第9回では、答えを出す時間に計算を足すことで、推論を強くする考え方を見た。

モデル・推論基盤深掘り

注意力の進化は、KVキャッシュをどこまで削れるかの歴史だ

LLMの注意力まわりは、名前だけ追うとすぐ迷子になる。MHA、MQA、GQA、MLA、SWA、DSA。略語が増え、図も増え、結局どれが何をしているのか分からなくなる。

モデル・推論基盤深掘り

GRPOはなぜ長時間学習で崩壊するのか――Qwenが出した「系列単位」の答え、GSPO

推論モデルの強化学習（RL）は、ここ1年で「ベンチマークを何点上げたか」を競うフェーズに見える。だがQwenチームが2025年7月末に公開した GSPO（Group Sequenc…

モデル・推論基盤深掘り

AIが正直になるほど、評価は壊れていく ―― Claude Opus 4.8 を読んで

Claude Opus の評価挙動から、モデルが賢くなるほど壊れるベンチマークの問題を見る。

推論・コスト最適化 21本

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む補講(14)：下書きと検め ―― 書き出しの遅さを、投機で買い戻す

連載は補講(13)で一度、本当に閉じました。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第39回：読むより、書くほうが高い ―― 入力と出力の、隠れた非対称

前回は、委譲を見ました。大きな仕事をそのまま渡すのではなく、文脈を切り離し、小さな仕事として別の場所へ渡す話でした。上の層では、それは編成の技術に見えます。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む補講(12)：同じ前置きを、二度読まない ―― 取っておいて使い回す、という節約

補講十一では、底の素材まで降りました。何を集め、どう整え、どう鍛えるかを見ました。

モデル・推論基盤深掘り

Agentic OS を、取引で読み直す（2）：安さは、細かさを少し諦めて買う ―― 数を粗く持つ、という割り切り

前回、入口を広く取れ、と言いました。

モデル・推論基盤深掘り

Agentic OS を、取引で読み直す（3）：取っておく代わりに、場所を占め続ける ―― 同じ計算を、二度しないための代償

前回は、数を粗くして軽くする話をしました。細かさを少し諦める代わりに、持つ数を減らす取引です。

モデル・推論基盤深掘り

Agentic OS を、取引で読み直す（5）：待つか、束ねるか ―― 全体の量は、一件の待ちで買う

前回、大勢で鍛えるとき、足並みを揃えるために、互いを待つ、という話をしました。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第1回：推論のコストは、黒板で逆算できる

Agentic OS を下から読むなら、最初に見るべきものはモデルの賢さではない。推論の値段と速度である。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第2回：GPU を遊ばせない ―― 非同期の連続バッチ処理

前回は、推論のコストをどこから見るかを整理した。大きく効いているのは、計算そのものだけではない。重みを読むメモリ帯域、同時に処理するリクエスト数、途中結果を持ち続けるための領域が、生成の速度と費用を決めていた。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第3回：一枚に載らないモデルを、どう分けて配るか

前回までは、モデルが一枚の GPU に収まっているものとして話を進めてきた。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第19回：コールドスタート ―― 推論を「本当にサーバーレス」にする四段の早回し

第1回から第3回では、推論コストの中心にある単純な事実を見た。GPU は高い。だから、確保した GPU を遊ばせると、そのまま損になる。

モデル・推論基盤深掘り

Agentic OS 技術スタックを下から読む第20回：推論エンジンの中身 ―― KV を「ページ」として配る

第1回から第3回で、長文脈の値段は、かなりの部分を KV キャッシュが決める、と見た。KV は過去文脈のための作業場所であり、リクエストごとに固有である。重みのように、多くの利用者で割り勘しにくい。

モデル・推論基盤深掘り

【実測】7GB のローカル AI に、競技数学と自分のコードと請求書を食わせてみた ―― Gemma 4 E4B QAT にできること・できないこと

前回、1.74GB の VibeThinker3B を手元で試しました。

モデル・推論基盤深掘り

【実測】無料・オフラインで、日本語がここまで読める ―― Baidu の新OCR「PP-OCRv6」が地味にすごい

無料。ローカル。オフライン。しかも、日本語がかなり読めます。

モデル・推論基盤深掘り

【実測】1.74GB の小モデルに、自分の非公開コードを読ませてみた ―― VibeThinker-3B にできること・できないこと

1.74GBのVibeThinker-3Bを自分の非公開コードで実測。解答エンジンとしては本物、だがエージェントではない。

モデル・推論基盤深掘り

単価は下がり続けているのに、請求額はなぜ増えるのか第1回：トークン経済学が転んだ話

トークンは、安くなり続けています。なのに、企業の AI 請求書は、増え続けています。

モデル・推論基盤深掘り

一晩で二百万円、一か月で五億ドル第2回：トークン経済学が転んだ話

前回は、理屈の話でした。安くなるほど、総額は高くつく。そういう、直感に反する仕組みの話です。

モデル・推論基盤深掘り

燃やした金は、どこへ消えたのか第3回：幽霊トークンと、撤退する大企業たち

前回までで、二つのことが分かりました。

モデル・推論基盤深掘り

LLM推論はモデルではなく、待ち行列と記憶のシステム工学だ

LLMを動かす、と聞くと、多くの人はモデルファイルを思い浮かべる。重みを落とす。GPUに載せる。プロンプトを入れる。答えが返る。

モデル・推論基盤深掘り

「AI を机の上へ」の裏で、NVIDIA は推論の両端を取りに来てる ―― Cosmos 3・RTX Spark・Vera Rubin を並べて読む

ここ数日、NVIDIA から立て続けに発表が出ました。Cosmos 3（オープンな物理 AI の基盤モデル）、RTX Spark（1 petaflop の AI PC 用スーパーチ…

モデル・推論基盤深掘り

旗艦モデルが「毎秒400トークン」で喋り出した ―― Zhipu GLM-5.1 高速版の中身

毎秒400トークンの裏側にある、推論エンジンと運用インフラの競争を見る。

モデル・推論基盤深掘り

「賢さ」より「燃費」で勝負するモデル ―― StepFun の Step 3.7 Flash が面白い

速さ・安さ・Agent実戦性能から、モデル競争が「燃費」へ移る流れを読む。

モデル・LLM 26本

Agentic OS 技術スタックを下から読む 補講(15)：手元の機体 ―― 端末で動かす、四つの理由と二つの壁

Agentic OS 技術スタックを下から読む 補講(16)：好みへ寄せる二本道 ―― 代理を立てるか、立てないか

Agentic OS 技術スタックを下から読む 第32回：賢さを、より少ないビットで積む ―― 量子化と、近似の取引

Agentic OS 技術スタックを下から読む 第33回：ゼロから鍛えるとき、効くのは派手な工夫ではない ―― 静かに失敗する訓練を、一段ずつ確かめる

Agentic OS 技術スタックを下から読む 第41回：検証できない好みを、どう教えるか ―― 選好の対と、報酬の代理と、その綻び

Agentic OS 技術スタックを下から読む 第43回：次の言葉と、次の状態は違う ―― 世界モデルは、抽象の層で先を読む

Agentic OS 技術スタックを下から読む 第47回：見ることと聞くことを、言葉と同じ場で扱う ―― 翻訳官を挟むか、主役に直接見せるか

Agentic OS 技術スタックを下から読む 補講(3)：言葉を、文字でも単語でもない単位に刻む ―― いちばん下の、見えない物差し

Agentic OS 技術スタックを下から読む 補講(4)：一つのモデルを、多くの機械へ広げる ―― 計算は割れる、通信は割れない

Agentic OS 技術スタックを下から読む 補講(7)：意味を、座標にする ―― 埋め込みという、意味の地面

Agentic OS 技術スタックを下から読む 補講(8)：全部に通さず、選んだ専門家だけに ―― 道を選ぶ門と、その難しさ

Agentic OS 技術スタックを下から読む 補講(9)：ご褒美で、振る舞いを変える ―― 試して・測って・少しだけ寄せる環

Agentic OS 技術スタックを下から読む 補講(10)：先生の「自信の配り方」を移す ―― 蒸留は、惜しさまで教える

Agentic OS 技術スタックを下から読む 補講(11)：モデルは、食べたものでできている ―― 鍛える前の、素材の作り方

Agentic OS を、取引で読み直す（6）：寄せると、痩せる ―― 活かすことと、探すことは、両立しない

Agentic OS を、取引で読み直す（8）：多いほど良い、ではない ―― 量を足すより、質と配合を整える

Agentic OS 技術スタックを下から読む 第4回：KV キャッシュを小さくする ―― 頭を減らすか、圧縮するか

Agentic OS 技術スタックを下から読む 第5回：過去のどこまでを見るか ―― 固定窓と、学習で選ぶ注意

Agentic OS 技術スタックを下から読む 第6回：層をまたいで使い回す ―― 効率化は、近似との取引である

Agentic OS 技術スタックを下から読む 第7回：大半を、もっと軽い仕組みに置き換える ―― ハイブリッドという組み立て

Agentic OS 技術スタックを下から読む 第8回：考える力は、どう教えられたか ―― 検証できる答えで鍛える

Agentic OS 技術スタックを下から読む 第9回：答える時間を、もっと使う ―― 推論時に計算を足す

Agentic OS 技術スタックを下から読む 第10回：世界モデルとは何か ―― 次の「状態」を予測し、想像の中で試す

注意力の進化は、KVキャッシュをどこまで削れるかの歴史だ

GRPOはなぜ長時間学習で崩壊するのか――Qwenが出した「系列単位」の答え、GSPO

AIが正直になるほど、評価は壊れていく ―― Claude Opus 4.8 を読んで

推論・コスト最適化 21本

Agentic OS 技術スタックを下から読む 補講(14)：下書きと検め ―― 書き出しの遅さを、投機で買い戻す

Agentic OS 技術スタックを下から読む 第39回：読むより、書くほうが高い ―― 入力と出力の、隠れた非対称

Agentic OS 技術スタックを下から読む 補講(12)：同じ前置きを、二度読まない ―― 取っておいて使い回す、という節約

Agentic OS を、取引で読み直す（2）：安さは、細かさを少し諦めて買う ―― 数を粗く持つ、という割り切り

Agentic OS を、取引で読み直す（3）：取っておく代わりに、場所を占め続ける ―― 同じ計算を、二度しないための代償

Agentic OS を、取引で読み直す（5）：待つか、束ねるか ―― 全体の量は、一件の待ちで買う

Agentic OS 技術スタックを下から読む 第1回：推論のコストは、黒板で逆算できる

Agentic OS 技術スタックを下から読む 第2回：GPU を遊ばせない ―― 非同期の連続バッチ処理

Agentic OS 技術スタックを下から読む 第3回：一枚に載らないモデルを、どう分けて配るか

Agentic OS 技術スタックを下から読む 第19回：コールドスタート ―― 推論を「本当にサーバーレス」にする四段の早回し

Agentic OS 技術スタックを下から読む 第20回：推論エンジンの中身 ―― KV を「ページ」として配る

【実測】7GB のローカル AI に、競技数学と自分のコードと請求書を食わせてみた ―― Gemma 4 E4B QAT にできること・できないこと

【実測】無料・オフラインで、日本語がここまで読める ―― Baidu の新OCR「PP-OCRv6」が地味にすごい

【実測】1.74GB の小モデルに、自分の非公開コードを読ませてみた ―― VibeThinker-3B にできること・できないこと

単価は下がり続けているのに、請求額はなぜ増えるのか 第1回：トークン経済学が転んだ話

一晩で二百万円、一か月で五億ドル 第2回：トークン経済学が転んだ話

燃やした金は、どこへ消えたのか 第3回：幽霊トークンと、撤退する大企業たち

LLM推論はモデルではなく、待ち行列と記憶のシステム工学だ

「AI を机の上へ」の裏で、NVIDIA は推論の両端を取りに来てる ―― Cosmos 3・RTX Spark・Vera Rubin を並べて読む

旗艦モデルが「毎秒400トークン」で喋り出した ―― Zhipu GLM-5.1 高速版の中身

「賢さ」より「燃費」で勝負するモデル ―― StepFun の Step 3.7 Flash が面白い

Agentic OS 技術スタックを下から読む補講(15)：手元の機体 ―― 端末で動かす、四つの理由と二つの壁

Agentic OS 技術スタックを下から読む補講(16)：好みへ寄せる二本道 ―― 代理を立てるか、立てないか

Agentic OS 技術スタックを下から読む第32回：賢さを、より少ないビットで積む ―― 量子化と、近似の取引

Agentic OS 技術スタックを下から読む第33回：ゼロから鍛えるとき、効くのは派手な工夫ではない ―― 静かに失敗する訓練を、一段ずつ確かめる

Agentic OS 技術スタックを下から読む第41回：検証できない好みを、どう教えるか ―― 選好の対と、報酬の代理と、その綻び

Agentic OS 技術スタックを下から読む第43回：次の言葉と、次の状態は違う ―― 世界モデルは、抽象の層で先を読む

Agentic OS 技術スタックを下から読む第47回：見ることと聞くことを、言葉と同じ場で扱う ―― 翻訳官を挟むか、主役に直接見せるか

Agentic OS 技術スタックを下から読む補講(3)：言葉を、文字でも単語でもない単位に刻む ―― いちばん下の、見えない物差し

Agentic OS 技術スタックを下から読む補講(4)：一つのモデルを、多くの機械へ広げる ―― 計算は割れる、通信は割れない

Agentic OS 技術スタックを下から読む補講(7)：意味を、座標にする ―― 埋め込みという、意味の地面

Agentic OS 技術スタックを下から読む補講(8)：全部に通さず、選んだ専門家だけに ―― 道を選ぶ門と、その難しさ

Agentic OS 技術スタックを下から読む補講(9)：ご褒美で、振る舞いを変える ―― 試して・測って・少しだけ寄せる環

Agentic OS 技術スタックを下から読む補講(10)：先生の「自信の配り方」を移す ―― 蒸留は、惜しさまで教える

Agentic OS 技術スタックを下から読む補講(11)：モデルは、食べたものでできている ―― 鍛える前の、素材の作り方

Agentic OS 技術スタックを下から読む第4回：KV キャッシュを小さくする ―― 頭を減らすか、圧縮するか

Agentic OS 技術スタックを下から読む第5回：過去のどこまでを見るか ―― 固定窓と、学習で選ぶ注意

Agentic OS 技術スタックを下から読む第6回：層をまたいで使い回す ―― 効率化は、近似との取引である

Agentic OS 技術スタックを下から読む第7回：大半を、もっと軽い仕組みに置き換える ―― ハイブリッドという組み立て

Agentic OS 技術スタックを下から読む第8回：考える力は、どう教えられたか ―― 検証できる答えで鍛える

Agentic OS 技術スタックを下から読む第9回：答える時間を、もっと使う ―― 推論時に計算を足す

Agentic OS 技術スタックを下から読む第10回：世界モデルとは何か ―― 次の「状態」を予測し、想像の中で試す

Agentic OS 技術スタックを下から読む補講(14)：下書きと検め ―― 書き出しの遅さを、投機で買い戻す

Agentic OS 技術スタックを下から読む第39回：読むより、書くほうが高い ―― 入力と出力の、隠れた非対称

Agentic OS 技術スタックを下から読む補講(12)：同じ前置きを、二度読まない ―― 取っておいて使い回す、という節約

Agentic OS 技術スタックを下から読む第1回：推論のコストは、黒板で逆算できる

Agentic OS 技術スタックを下から読む第2回：GPU を遊ばせない ―― 非同期の連続バッチ処理

Agentic OS 技術スタックを下から読む第3回：一枚に載らないモデルを、どう分けて配るか

Agentic OS 技術スタックを下から読む第19回：コールドスタート ―― 推論を「本当にサーバーレス」にする四段の早回し

Agentic OS 技術スタックを下から読む第20回：推論エンジンの中身 ―― KV を「ページ」として配る

単価は下がり続けているのに、請求額はなぜ増えるのか第1回：トークン経済学が転んだ話

一晩で二百万円、一か月で五億ドル第2回：トークン経済学が転んだ話

燃やした金は、どこへ消えたのか第3回：幽霊トークンと、撤退する大企業たち