GRPOはなぜ長時間学習で崩壊するのか――Qwenが出した「系列単位」の答え、GSPO
推論モデルの強化学習(RL)は、ここ1年で「ベンチマークを何点上げたか」を競うフェーズに見える。だがQwenチームが2025年7月末に公開した GSPO(Group Sequenc…
推論モデルの強化学習(RL)は、ここ1年で「ベンチマークを何点上げたか」を競うフェーズに見える。だがQwenチームが2025年7月末に公開した GSPO(Group Sequence Policy Optimization) が触っているのは、スコアの上澄みではなく、その下にある地盤――「そもそも長時間RLを回すとモデルが壊れる」という、もっと地味で、もっと致命的な問題だ。
素材として渡されたQwen公式ブログの記述は短い。だが一次情報(arXiv論文 2507.18071、Qwenチーム)を当たると、主張ははっきりしている。現行主流のGRPOは、大規模モデルを長く訓練すると「破滅的で不可逆なモデル崩壊(catastrophic and irreversible model collapse)」を起こしうる。その原因はGRPOの設計そのものにある、と。以下、何が起きていて、GSPOが何を変えたのかを、なるべく原理から順に説明する。
何が起きたのか
QwenチームがGSPOという新しいRL後訓練アルゴリズムを論文・ブログ・公式アカウントで公開した。位置づけは明快で、
- GRPO(DeepSeekが広めた、価値関数(critic)を使わずグループ内の相対報酬で優位性を測る手法)には、大規模・長時間学習での深刻な不安定性がある。
- GSPOはその不安定性の根本原因を「重要度サンプリング(importance sampling)の誤用」と特定し、設計レベルで作り直した。
- 結果として、特にMoE(Mixture-of-Experts)モデルのRL学習を安定化させ、最新のQwen3モデルの改善に寄与したとQwenは述べている。
ここは一次情報(Qwenの論文・ブログ・公式X)で一貫しているので、事実として扱ってよい。論文著者はQwen Team(Chujie Zheng、Shixuan Liu ら)、公開は2025年7月29日付。
技術的に何が新しいのか――「トークン単位」から「系列単位」へ
新規性を一言で言うと、重要度比(importance ratio)を計算する単位を、トークンから系列(応答全体)へ引き上げたことに尽きる。ここを理解するには、まず重要度サンプリングが何のためにあるかを押さえる必要がある。
前提:なぜ重要度比が要るのか
RL後訓練では、効率のために「少し前のポリシー(π_old)で生成した応答」を、何ステップか使い回して現在のポリシー(π_θ)を更新する(off-policy的な再利用)。生成したときの分布と、更新したい分布がズレているので、その差を補正する係数が要る。それが重要度比だ。教科書的には、
w = π_θ(y|x) / π_old(y|x)
この比で重み付けすれば、「π_oldで集めたサンプルから、π_θ上の期待値を不偏推定できる」というのが重要度サンプリングの理屈である。
GRPOの問題:単一サンプルにトークン単位で適用してしまう
GRPOは、この比をトークン1つ1つに対して計算する。t番目のトークンについて
w_{i,t} = π_θ(y_{i,t} | x, y_{i,<t}) / π_old(y_{i,t} | x, y_{i,<t})
を作り、トークンごとの優位性に掛けて勾配を出す。Qwenの主張の核心はここだ。重要度サンプリングは「多数のサンプルで平均してはじめて分布補正として機能する」のに、GRPOは各位置でたった1サンプルの比を当てているだけで、補正としての役割を果たしていない。 補正にならない代わりに、それは高分散のノイズとして勾配に乗る。
そしてこのノイズは、
- 応答が長くなるほど(トークン数が増えるほど)累積し、
- クリッピング機構によってさらに増幅される、
とQwenは説明する。長い推論チェーンを大量に生成して長時間回す――まさに今の推論モデルのRLがやっていること――ほど、このノイズが効いてきて、最終的にモデル崩壊に至る。「火力(計算)を足せば賢くなる」のではなく、訓練ダイナミクスそのものが天井になっている、という話だ。
GSPOの修正:系列尤度を長さ正規化した比で測る
GSPOは比の単位を応答系列 y_i 全体に上げる。概念的には系列の尤度比を取り、応答長 |y_i| で正規化(指数 1/|y_i| を掛けて、トークンあたりの幾何平均にする)した量を重要度比として使う:
s_i(θ) ≈ ( π_θ(y_i|x) / π_old(y_i|x) )^(1/|y_i|)
長さで正規化するのは、応答ごとに長さがバラバラだと比の桁が暴れるためで、これで長短の応答を同じ土俵に乗せられる。そしてクリッピングも報酬付与も最適化も、すべてこの系列単位の量に対して行う(token単位ではなく)。
注:上の式の表記は一次情報(論文本文)から再構成したもので、正規化の入れ方の細部は論文の定義に当たって確認してほしい。論文には、系列単位の挙動を保ちながらトークン単位の勾配も扱える GSPO-token という変種も提示されている(こちらの式の詳細は本稿では未確認)。
直感的に言えば、GRPOは「文章のうまさを単語ごとに採点して足し合わせる」のに近く、GSPOは「文章全体を1つの単位として採点する」。報酬がそもそも応答全体に対して与えられる(系列単位)以上、最適化の単位も系列に揃えるほうが理屈が通っている――これがQwenの言う「理論的に健全(theoretically sound & matching reward)」の意味だ。
なぜ効くのか――クリッピングの逆説
ここがGSPOの面白いところで、一見すると不利な事実から効果が逆説的に示される。
GSPOは応答まるごとをクリップするため、トークン単位で見るとGRPOより桁違いに多くのトークンがクリップされて勾配から落ちる。Qwenの実験では、GSPOのクリッピング範囲は 3e-4 / 4e-4 程度に設定され、クリップされるトークン割合はGRPO比でおよそ2桁多いという。
普通に考えれば、勾配に使う情報を大量に捨てているのだから不利なはずだ。ところがそれでもGSPOのほうがGRPOより学習効率・性能が高い。Qwenはこれを「GRPOのトークン単位勾配はそもそもノイズが多く、有効ではなかった」証拠だと読む。つまり、GRPOは多くのトークンを“使っている”ように見えて、その中身は補正になっていない雑音で、捨てたほうがむしろ素直に伸びる、ということになる。
実験は、Qwen3-30B-A3B-Base からコールドスタートで微調整したモデルで、AIME‘24・LiveCodeBench・CodeForces の性能曲線と訓練報酬曲線を、GRPOをベースラインに比較している。同じ訓練コストでGSPOのほうが効率よく伸びる、という報告だ。なお、これらの数値はQwen自身による比較であり、第三者の独立再現が出そろっているわけではない点は割り引いて読むべきだ。
MoEで一番効く――「Routing Replay」という松葉杖を捨てる
GSPOの主張で実務的にいちばん刺さるのは、MoEモデルでの安定化だと思う。
MoEは入力トークンごとに一部のエキスパート(部分ネットワーク)だけを活性化する。ここで厄介なのが Expert Activation Volatility(エキスパート活性化の揺れ) で、1回の勾配更新の後、同じ入力に対して活性化するエキスパートの集合が大きく変わってしまう。Qwenの報告では、48層の Qwen3-30B-A3B-Base で1更新ごとに約10%のエキスパートが入れ替わる。
GRPOはトークン単位の比に依存するので、活性化エキスパートが揺れると比が更新ごとに激しくブレて信頼できなくなり、収束しない。そこで従来は Routing Replay という回避策――π_old が活性化したエキスパートをキャッシュしておき、π_θ 側でも同じルーティングを「再生」して比を計算させる――が必要だった。これはモデルに本来の容量を使わせず、インフラも複雑にする、典型的な松葉杖(hack)だ。
GSPOは比を系列単位で測るため、個々のトークンでどのエキスパートが活性化したかの揺れに鈍感になる。結果として Routing Replay が不要になる。Qwenはこれを「RLインフラを簡素化しうる」効用として強調している。MoEが大規模モデルの主流アーキテクチャになりつつある今、後訓練のたびに特殊なルーティング工作を要らなくする、というのは地味だが大きい。
どう使われるのか
- 基盤モデル提供者の後訓練パイプライン:GSPOは推論能力(数学・コード・長い推論チェーン)を伸ばすRL後訓練の、より安定したデフォルト候補になる。特にMoEを採用する陣営にとっては、Routing Replay を外せること自体が運用コスト削減になる。
- OSSエコシステムへの波及:論文・ブログで手の内(なぜGRPOが壊れ、どう直したか)を明かしている。これは単にモデルを1つ出すより戦略的で、後続が再現・追随する際の「アルゴリズム路線」を自陣に引き寄せる動きだ。実際、論文公開後にGRPO安定化を狙う派生研究(GTPO、Group Expectation Policy Optimization 等)が続いており、系列単位/勾配制御という論点が後訓練研究の一テーマになりつつある(これらは二次的な関連研究で、GSPOの優劣を裏づけるものではない)。
- 企業の自社モデル微調整:「最終スコア」だけでなく「長時間回しても能力が後退しないか/崩壊しないか」を評価軸に入れる動機になる。安定性は、計算予算を能力に変換できるかどうかを直接左右する。
個人的な見方
このニュースの信号は、素材のメモが言う通りだと思う――競争の重心が「問題を解けるモデルを作る」から「モデルを安定して“もっと解ける”ところまで訓練し切れる」へ移っている。
ただ、技術を当たって一歩踏み込むと、GSPOの本当の主張は「安定性のための新ハック」ではなく、「GRPOのトークン単位重要度比は最初から理屈が通っていなかった」という指摘だ。重要度サンプリングは多数サンプルの平均で初めて補正になる――この基礎を、報酬の単位(系列)と最適化の単位(系列)を一致させることで素直に満たした。やっていることは派手な発明ではなく、むしろ「ズレていた単位を揃え直した」だけに見える。だからこそ説得力がある。「多数のトークンを捨てても性能が上がる」という逆説は、捨てた中身が情報ではなくノイズだったことの裏返しで、ここが一番きれいな論点だと思う。
評価としては――計算(油)に対して、安定したアルゴリズム(油路)が効くという比喩は的を射ている。油路が詰まっていれば、油を足すほど倉庫が高くつくだけだ。一方で割り引くべき点もはっきりしている:性能比較はQwen自身によるもので、独立再現はこれから。「不可逆な崩壊」が具体的にどの能力でどう現れるのか、GSPOの優位が小規模でも出るのか大規模長時間でのみ出るのか、同一計算で安定なのか追加コストを払って安定なのか――この最後の点が、「研究上の見栄え」か「現場で本当に使える工学」かを分ける。論文の実験は後者寄りの主張だが、社外データで確かめたい段階だ。
冷門だが値打ちがある、という最初の見立ては支持する。次のモデル能力の増分が、こういう「セクシーでない最適化アルゴリズム」に隠れているという読みは、当たっている可能性が高い。
← 一覧へ