中国の「自前のチップ」で、1.6兆パラメータのモデルを鍛え直した話
国産チップで巨大モデルの後訓練を安定して回す、地味だが重いインフラの進展。
エヌビディアの GPU を使わずに、最先端の巨大言語モデルを訓練する ―― これは長らく「推論(動かす)はできても、訓練(鍛える)は無理」と言われてきた領域でした。その壁に、また一つ穴が空いたようです。
深圳河套学院(SLAI)が、ファーウェイの昇腾(Ascend)910C を1000枚以上つないだ国産計算クラスタ上で、DeepSeek-V4-Pro の全パラメータ後訓練(フルパラメータ・ポストトレーニング)を完了したと発表しました。公開情報の範囲では、国産クラスタによる V4-Pro のフルパラメータ後訓練としては、第三者による世界初の工学的実装だとされています。
技術の話なので、まず何がどう凄いのかを、落ち着いて見ていきます。
「デモ」ではなく「再現可能な工学」だという点
一番大事なのは、これが一発芸のデモではない、ということです。
訓練対象は 1.6兆パラメータの MoE(Mixture-of-Experts)モデル。これを千枚規模のクラスタで、1ステップあたり27秒という安定したペースで、1500ステップ以上連続で回しきった。しかも、スキップされたステップはゼロ、NaN(数値が壊れる現象)もゼロ。
大規模訓練をやったことがある人ほど、この「ゼロ・ゼロ」の重みが分かると思います。千枚のチップを同期させて長時間回すと、どこか一枚が転んだり、勾配の同期がタイムアウトしたり、数値が発散したりして、普通は止まります。それを1500ステップ無事故で通した、というのは、運ではなくエンジニアリングが効いている証拠です。
効率の数字も出ています。MFU(モデルFLOPs利用率)は約30%、ファーウェイのスーパーノード上では34.9%まで安定。主要な訓練オペレータの計算効率は、初版から約14%改善した、と。MFU 30%台というのは、国産アクセラレータでの大規模訓練として、実用域に入ってきた数字です。
なぜこれが「インフラの転換点」なのか
これまで中国の国産チップ(昇腾など)は、主に推論(出来上がったモデルを動かす)と、軽量な微調整の領域で使われてきました。一番重い「フルパラメータの訓練」は、依然としてエヌビディアの成熟したインフラに頼るのが現実だった。
実際、DeepSeek-V4 そのものも、最も重い事前学習の主要部分ではエヌビディア由来の環境も使われたとされ、「完全に国産だけで鍛えた最初のモデル」というよりは、「国産シリコンを前提に協調設計された最初のフロンティアモデル」と理解するのが正確です。昇腾910C で1024枚を回そうとして勾配同期がタイムアウトした、という生々しい話も伝わっています。
そのうえで、今回の SLAI の成果が意味するのは、「フルパラメータ後訓練」という、これまで国産勢が踏み込めていなかった一番重い工程を、千枚クラスタで安定再現してみせたということです。点が、また一つ西側依存から外れた。
背景には、エコシステム全体の動きもあります。V4 は MIT ライセンスのオープンウェイトで、BAAI の FlagOS という国産AIソフトスタックを通じて、昇腾だけでなく Cambricon、Hygon、Moore Threads など8つの国産チップ系列が同時に day-zero 対応したと報じられています。「CUDA への依存を断つ」という方向は、もはやスローガンではなく、工程表の段階に来ています。
個人的な見方
私がこのニュースで一番興味深いと思うのは、派手なベンチマークのスコアではなく、「27秒 × 1500ステップ × 事故ゼロ」という、地味な安定性の数字です。
AI の競争は、しばしばモデルの賢さ(ベンチマーク)の話として語られます。でも、その賢さを支えているのは、結局のところ「何千枚ものチップを、何日も、止めずに回し続けられるか」という、極めて泥臭いインフラの力です。そして西側の制裁(先端GPUの輸出規制)が狙い撃ちにしているのも、まさにそこ ―― 訓練インフラの部分でした。
今回の話は、その制裁が前提としていた「中国は自前のチップでは大規模訓練を安定して回せない」という想定に、また一つ反例が積み上がった、ということだと思います。一回の派手な発表より、「再現可能・工学的に安定」という言葉のほうが、本当は重い。モデルの賢さばっかり見てると、この足元の変化を見落とす。私はそっちのほうが気になっています。
(なお、MFU や安定性の数字は SLAI の発表ベースで、独立検証はこれからです。また V4 全体の訓練がすべて国産チップだけで行われたわけではない点も、補足しておきます。)
―― AI未来編集室「AIウォッチ」
← 一覧へ