旗艦モデルが「毎秒400トークン」で喋り出した ―― 智谱 GLM-5.1 高速版の中身
毎秒400トークンの裏側にある、推論エンジンと運用インフラの競争を見る。
大規模モデルを使ってて、地味にストレスなのが「出力が遅い」ことですよね。賢い答えでも、ダラダラ出てくると待ってられない。とくにAIにコードを書かせたり、エージェントを回したりすると、この「遅さ」がそのまま生産性を削ってくる。
中国の智谱(Zhipu)が5月22日に出した GLM-5.1 高速版API は、そこを正面から殴ってきました。出力速度 毎秒400トークン。これは大規模モデルのAPIとして、世界最速記録を更新した数字です。しかも面白いのは、これが「モデルを小さくして速くした」話じゃない、というところ。中身を見ていきます。
「賢さはそのまま、速度だけ上げる」をどうやったか
普通、AIを速くしたいなら、いちばん簡単なのはモデルを小さくすることです。でもそれだと賢さが落ちる。GLM-5.1 高速版がやったのは逆で、旗艦モデルの賢さは維持したまま、それを動かす”土台”のほうを徹底的に作り直すというアプローチでした。
智谱の GLM チームと TileRT というチームが組んで、3つの層でシステム級の最適化をかけています。
ひとつめ、推論エンジン層。GLM-5.1 のアーキテクチャに合わせて、推論の中核パスを書き直し、GPU1枚あたりの処理能力(スループット)を引き上げた。
ふたつめ、スケジューリング層。動的バッチ処理、リクエストの統合、KVキャッシュの調整で、大量の同時アクセスが来たときの「尾のレイテンシ」(一番遅い応答)を抑える。ここ、地味だけど実運用ではすごく効きます。「平均は速いけど、たまにすごく遅い」だとサービスとして使えないので。
みっつめ、インフラ層。推論クラスタの配置、ネットワーク、負荷分散をまとめて最適化して、400 TPS が「ピーク時だけ出る瞬間最大風速」じゃなく、安定して出せる生産級の数字になるようにした、と。
そして核になっているのが TileRT エンジンです。これは、コンパイル時に処理を静的に並べ替え、Tile(タイル)単位の細かいタスクスケジューリングで無駄を削り、ハードウェアの物理的な限界に近づけるという発想のもの。要は「同じGPUから、もっと搾り取る」技術ですね。
賢さを犠牲にせず、ソフトウェアとインフラの作り込みだけで世界最速まで持っていった。ここがこのニュースの技術的な見どころです。
なぜ「今」みんな速度を競い始めたのか
これ、単独の出来事じゃありません。少し前に紹介した阶跃の Step 3.7 Flash(毎秒400トークン、燃費重視)とも、はっきり同じ方向を向いています。中国のモデル各社が、いま揃って「速さ」と「安さ」を競い始めてる。
理由は、AIの使われ方が変わったからです。一問一答のチャットなら、多少遅くても気にならない。でも今、主戦場はエージェントに移ってる。エージェントは一つのタスクで何十回、何百回とモデルを呼ぶ。その一回一回の速度と単価が、そのままサービスの採算と体験を決める。
だから「賢さ」の競争が一段落して、次は「同じ賢さを、どれだけ速く・安く回せるか」の競争に入った。GLM-5.1 高速版が、智谱の MaaS プラットフォームで、まず AIプログラミング・リアルタイム対話・リアルタイム音声という「遅延にうるさい用途」の企業顧客に向けて出された、というのも象徴的です。速度がいちばん効く現場から攻めてる。
個人的な見方
去年までの中国モデルのニュースは、「ベンチマークで何点」「パラメータ何兆」みたいな、スペックの殴り合いが多かった。でも GLM-5.1 高速版みたいな話が出てくると、競争のフェーズが一個進んだのが分かります。「作れる」から「回せる」へ。
速度って、論文には載りにくいし、派手な見出しにもなりにくい。でも実際にAIをプロダクトに組み込む人間にとっては、ベンチマークのコンマ数点より、毎秒何トークン出るか・1回いくらかのほうが、よっぽど死活問題なんですよね。中国勢がそこに本気で人とチーム(TileRTみたいな推論特化の専門部隊)を割き始めた、というのが、私には一番のニュースに見えます。
日本でAIをサービスに乗せようとしてる人は、モデルの賢さランキングだけ見てると、この層の競争を見落とします。「賢いモデル」はもうコモディティに近づいてる。差がつくのは、その下の推論を速く安く回すエンジニアリングのほう。中国はそっちにも、もう手を伸ばしてる。私が最近いちばん注目してるのは、この「土台の競争」です。
(速度・最適化の内容は智谱の公開情報および各種報道ベースで、独立した実測検証はこれからの部分もあります。)
―― AI未来編集室「AIウォッチ」
← 一覧へ