モデル・推論基盤深掘り7分で読めます

「AI を机の上へ」の裏で、NVIDIA は推論の両端を取りに来てる ―― Cosmos 3・RTX Spark・Vera Rubin を並べて読む

この記事の読み方
ここ数日、NVIDIA から立て続けに発表が出ました。Cosmos 3（オープンな物理 AI の基盤モデル）、RTX Spark（1 petaflop の AI PC 用スーパーチ…

ここ数日、NVIDIA から立て続けに発表が出ました。Cosmos 3（オープンな物理 AI の基盤モデル）、RTX Spark（1 petaflop の AI PC 用スーパーチップ）、そして工場向けの Vera Rubin / Vera CPU。バラバラのニュースに見えるけど、並べると一本の狙いが透けます。

表の顔は「AI を、クラウドからあなたの机の上へ」。でも裏で起きてるのは、もっと欲張りな話——NVIDIA は「推論をどこで走らせるか」の、ほぼ全部を取りに来てる。机の上も、工場も。そして全部、CUDA の上で。

ここを分けて読まないと、ただの新製品まとめになる。一個ずつ、何が事実で、狙いがどこかを見ていきます。

まず事実を、確かなところだけ

RTX Spark。 NVIDIA と Microsoft が一緒に出した「スーパーチップ」。20 コアの Grace CPU と、6,144 CUDA コアの Blackwell RTX GPU を NVLink-C2C でつなぎ、最大 128GB の統一メモリ、1 petaflop の AI 演算（これは FP4 の数字です。FP16 だと 250 TFLOPS 前後、という整理はテック媒体側の換算なので、そこは割り引いて）。何ができるか、が肝心で——NVIDIA 自身の言葉では「1200億パラメータの LLM を、100万トークンの文脈で、エージェントとともにローカルで動かす」。秋に ASUS・Dell・HP・Lenovo・Microsoft Surface・MSI から出る。

ここで一点、はっきりさせておきます。世間で噂の「N1X」というチップ名、NVIDIA の公式発表には一度も出てきません。公式名は「RTX Spark」。N1X はこのチップ（か、その派生）のリーク段階の開発コード名で、中身（20 コア ARM＋Blackwell 6,144 CUDA）はほぼ RTX Spark と同じ。だから「RTX Spark＝デスクトップ、N1X＝ノート」と二つに数えるのは、リークと二重計上が混ざってる。公式の RTX Spark が、ノートもデスクトップも両方カバーしてます。ここは実際に作るなら間違えちゃいけないところ。

Cosmos 3。 こっちはモデル側。物理 AI 向けのオープンな基盤モデルで、「reasoning transformer ＋ expert generation transformer」という mixture-of-transformers 構成。テキスト・画像・動画・環境音・行動を一つのモデルで理解＆生成する「世界初の完全にオープンな omnimodel」を謳う。20兆トークンで訓練。ラインナップに Cosmos 3 Super（ロボ/AV の後訓練向け、最高精度）、Nano（コンマ何秒で動画＆行動推論）、そして——ここが今回の話の鍵——Cosmos 3 Edge（近日、エッジでのリアルタイム推論向け）がある。Runway や Black Forest Labs、Skild AI らと「Cosmos Coalition」も組んだ。

Vera Rubin / Vera CPU。 そして同じタイミングで、工場側も出してる。Vera Rubin プラットフォームが満産入り、Vera CPU はエージェント型 AI のために設計された CPU——ツール実行、データのルーティング、多段の推論ワークフローみたいな「AI の裏方仕事」を捌くやつ。DSX という AI ファクトリーの参照アーキ、NVL72、5ラック束ねて一台の AI スパコン。Grace Blackwell 比で「エージェント処理 10倍」。

並べると見える、たった一つの狙い

この4つ、共通項が一個あります。全部が同じ一種類の仕事——エージェント型の「推論」——に向けて作られてる。

Vera CPU は、はっきり「agentic AI のため」。裏方のツール実行・多段推論用。
RTX Spark は「エージェントをローカルで動かす」ため。
Cosmos 3 は、推論して・世界を生成して・行動を出す、そのモデル本体。

つまり NVIDIA の賭けは「次に来るワークロードは学習じゃなくてエージェントの推論だ」。で、その推論を、あらゆるスケールで自前のシリコンに載せにきてる。一番大きいところは工場（Vera Rubin、10倍）、一番小さいところは机の上（RTX Spark、ローカルで 120B）。そして真ん中に、両方で動くオープンなモデル（Cosmos）を接着剤として置く。

だから「AI を手元に取り戻す」は、半分しか本当じゃない。それは消費者向けに用意したストーリーであって、戦略の本音は——推論という光線スペクトルの、どの一段も他社に渡さない。工場で走ろうが、机で走ろうが、結局 NVIDIA の CPU と GPU と、CUDA の上で走る。雲かローカルか、の二択じゃない。両取りです。

なぜ「机の上」が今、急に成立したのか

ローカル推論なんて昔から言われてた。なのに今回「本当にいける」感が出てるのは、いくつかが同時に揃ったから。ここは技術的に押さえておく価値がある。

統一メモリ 128GB。120B クラスのモデルは、重みだけで巨大。これがメモリに載らないと話にならない。CPU と GPU が同じメモリを見る構成で、ようやく机の上に乗った。
FP4。1 petaflop はこの低精度あってこそ。精度を落とす代わりに、桁違いのスループットを同じ消費電力枠で出す。
オープンなモデル（Cosmos の Edge 変体）。エッジで回せるモデルが手元にないと、ハードだけあっても意味がない。
OS 側の安全装置。ここが地味に効く。Microsoft が Windows のセキュリティ原語と「OpenShell」ランタイムを用意して、エージェントが「身元・封じ込め・ポリシー」付きで安全に走る仕組みを入れた。タスクバーから呼べる。Nadella の言葉では「家にも机にも、計測されない知能を」。
ここが本当の鍵だと思う。ローカルでエージェントを放つって、自分の PC のファイルや権限を触らせるってこと。OS が封じ込めの枠を用意して初めて、「私的データを外に出さずに、agent を手元で走らせる」が現実になる。ハードの petaflop より、この封じ込めの枠のほうが、ローカル推論を成立させた本丸かもしれない。

ただし――誤読すると判断を間違える

実践や投資の判断に使うなら、ここを外しちゃいけない。

「もうクラウド要らない」ではない。大規模な学習と重い推論は、依然として工場側（Vera Rubin）。NVIDIA 自身が同じ日に工場向けを出してるのが証拠。机の上に来るのは「個人の・私的な・低遅延の」推論であって、全部じゃない。
N1X を独立製品として当てにしない。公式は RTX Spark。N1X はリークのコード名で、価格「3,000ドル超」みたいな数字もリーク由来（公式は価格を出してない）。記事や判断で N1X を別物として数えると、足をすくわれる。
Cosmos 3 Edge は「近日」。エッジ実時推論の変体は、まだ出てない。今あるのは Super と Nano。
「オープン」の意味を取り違えない。Cosmos がオープンなのは慈善じゃない。オープンなモデルを撒けば、それを一番うまく走らせるのは自社のハード（CUDA）。オープンソースは、ハードを売るための接着剤。賢い戦略だけど、「オープン＝中立」ではない。

個人的な見方

NVIDIA の本当に強いところは、Cosmos でも RTX Spark でも、個々の製品じゃない。「エージェント時代の推論」という一個の賭けに、あらゆるスケールでシリコンを張って、その間を一つのオープンモデルで縫った、その布陣のほうです。あなたが推論をどこで走らせようと、それは NVIDIA の CUDA の上で走る。雲でも、机でも。

だから、エッジ／ローカル AI をやりたい人——日本のメーカーでも、個人でも——にとって、示唆はちょっと両義的です。ローカル推論への道は、NVIDIA がもう門（ハード＋OS＋モデル）を全部建ててくれた。乗るのは速い。でも門の入場券は CUDA で、降りる出口はだいたい塞がってる。

本当の問いは「ローカルにすべきか」じゃない。推論のどの一段も、一社のスタックの上に生やしていいのか、です。便利さと引き換えに、それを引き受けるのか。RTX Spark を机に置く前に、一回考える価値はあると思う。まあ、ほとんどの人は便利さを取るんだろうけど。そっちのほうが、正直ちょっと気になってます。

―― AI未来編集室「AIウォッチ」

← 一覧へ