← 一覧へ

「AI を机の上へ」の裏で、NVIDIA は推論の両端を取りに来てる ―― Cosmos 3・RTX Spark・Vera Rubin を並べて読む

この記事の読み方
ここ数日、NVIDIA から立て続けに発表が出ました。Cosmos 3(オープンな物理 AI の基盤モデル)、RTX Spark(1 petaflop の AI PC 用スーパーチ…

ここ数日、NVIDIA から立て続けに発表が出ました。Cosmos 3(オープンな物理 AI の基盤モデル)、RTX Spark(1 petaflop の AI PC 用スーパーチップ)、そして工場向けの Vera Rubin / Vera CPU。バラバラのニュースに見えるけど、並べると一本の狙いが透けます。

表の顔は「AI を、クラウドからあなたの机の上へ」。でも裏で起きてるのは、もっと欲張りな話——NVIDIA は「推論をどこで走らせるか」の、ほぼ全部を取りに来てる。机の上も、工場も。そして全部、CUDA の上で。

ここを分けて読まないと、ただの新製品まとめになる。一個ずつ、何が事実で、狙いがどこかを見ていきます。

まず事実を、確かなところだけ

RTX Spark。 NVIDIA と Microsoft が一緒に出した「スーパーチップ」。20 コアの Grace CPU と、6,144 CUDA コアの Blackwell RTX GPU を NVLink-C2C でつなぎ、最大 128GB の統一メモリ、1 petaflop の AI 演算(これは FP4 の数字です。FP16 だと 250 TFLOPS 前後、という整理はテック媒体側の換算なので、そこは割り引いて)。何ができるか、が肝心で——NVIDIA 自身の言葉では「1200億パラメータの LLM を、100万トークンの文脈で、エージェントとともにローカルで動かす」。秋に ASUS・Dell・HP・Lenovo・Microsoft Surface・MSI から出る。

ここで一点、はっきりさせておきます。世間で噂の「N1X」というチップ名、NVIDIA の公式発表には一度も出てきません。公式名は「RTX Spark」。N1X はこのチップ(か、その派生)のリーク段階の開発コード名で、中身(20 コア ARM+Blackwell 6,144 CUDA)はほぼ RTX Spark と同じ。だから「RTX Spark=デスクトップ、N1X=ノート」と二つに数えるのは、リークと二重計上が混ざってる。公式の RTX Spark が、ノートもデスクトップも両方カバーしてます。ここは実際に作るなら間違えちゃいけないところ

Cosmos 3。 こっちはモデル側。物理 AI 向けのオープンな基盤モデルで、「reasoning transformer + expert generation transformer」という mixture-of-transformers 構成。テキスト・画像・動画・環境音・行動を一つのモデルで理解&生成する「世界初の完全にオープンな omnimodel」を謳う。20兆トークンで訓練。ラインナップに Cosmos 3 Super(ロボ/AV の後訓練向け、最高精度)、Nano(コンマ何秒で動画&行動推論)、そして——ここが今回の話の鍵——Cosmos 3 Edge(近日、エッジでのリアルタイム推論向け)がある。Runway や Black Forest Labs、Skild AI らと「Cosmos Coalition」も組んだ。

Vera Rubin / Vera CPU。 そして同じタイミングで、工場側も出してる。Vera Rubin プラットフォームが満産入り、Vera CPU はエージェント型 AI のために設計された CPU——ツール実行、データのルーティング、多段の推論ワークフローみたいな「AI の裏方仕事」を捌くやつ。DSX という AI ファクトリーの参照アーキ、NVL72、5ラック束ねて一台の AI スパコン。Grace Blackwell 比で「エージェント処理 10倍」。

並べると見える、たった一つの狙い

この4つ、共通項が一個あります。全部が同じ一種類の仕事——エージェント型の「推論」——に向けて作られてる。

つまり NVIDIA の賭けは「次に来るワークロードは学習じゃなくてエージェントの推論だ」。で、その推論を、あらゆるスケールで自前のシリコンに載せにきてる。一番大きいところは工場(Vera Rubin、10倍)、一番小さいところは机の上(RTX Spark、ローカルで 120B)。そして真ん中に、両方で動くオープンなモデル(Cosmos)を接着剤として置く。

だから「AI を手元に取り戻す」は、半分しか本当じゃない。それは消費者向けに用意したストーリーであって、戦略の本音は——推論という光線スペクトルの、どの一段も他社に渡さない。工場で走ろうが、机で走ろうが、結局 NVIDIA の CPU と GPU と、CUDA の上で走る。雲かローカルか、の二択じゃない。両取りです。

なぜ「机の上」が今、急に成立したのか

ローカル推論なんて昔から言われてた。なのに今回「本当にいける」感が出てるのは、いくつかが同時に揃ったから。ここは技術的に押さえておく価値がある。

  1. 統一メモリ 128GB。120B クラスのモデルは、重みだけで巨大。これがメモリに載らないと話にならない。CPU と GPU が同じメモリを見る構成で、ようやく机の上に乗った。
  2. FP4。1 petaflop はこの低精度あってこそ。精度を落とす代わりに、桁違いのスループットを同じ消費電力枠で出す。
  3. オープンなモデル(Cosmos の Edge 変体)。エッジで回せるモデルが手元にないと、ハードだけあっても意味がない。
  4. OS 側の安全装置。ここが地味に効く。Microsoft が Windows のセキュリティ原語と「OpenShell」ランタイムを用意して、エージェントが「身元・封じ込め・ポリシー」付きで安全に走る仕組みを入れた。タスクバーから呼べる。Nadella の言葉では「家にも机にも、計測されない知能を」。
  5. ここが本当の鍵だと思う。ローカルでエージェントを放つって、自分の PC のファイルや権限を触らせるってこと。OS が封じ込めの枠を用意して初めて、「私的データを外に出さずに、agent を手元で走らせる」が現実になる。ハードの petaflop より、この封じ込めの枠のほうが、ローカル推論を成立させた本丸かもしれない。

ただし――誤読すると判断を間違える

実践や投資の判断に使うなら、ここを外しちゃいけない。

個人的な見方

NVIDIA の本当に強いところは、Cosmos でも RTX Spark でも、個々の製品じゃない。「エージェント時代の推論」という一個の賭けに、あらゆるスケールでシリコンを張って、その間を一つのオープンモデルで縫った、その布陣のほうです。あなたが推論をどこで走らせようと、それは NVIDIA の CUDA の上で走る。雲でも、机でも。

だから、エッジ/ローカル AI をやりたい人——日本のメーカーでも、個人でも——にとって、示唆はちょっと両義的です。ローカル推論への道は、NVIDIA がもう門(ハード+OS+モデル)を全部建ててくれた。乗るのは速い。でも門の入場券は CUDA で、降りる出口はだいたい塞がってる。

本当の問いは「ローカルにすべきか」じゃない。推論のどの一段も、一社のスタックの上に生やしていいのか、です。便利さと引き換えに、それを引き受けるのか。RTX Spark を机に置く前に、一回考える価値はあると思う。まあ、ほとんどの人は便利さを取るんだろうけど。そっちのほうが、正直ちょっと気になってます。

―― AI未来編集室「AIウォッチ」

← 一覧へ