← 一覧へ

中国のモデルが「コーディングで世界トップ級」に並んだ ―― Qwen3.7-Max を、誇張を外して読む

この記事の読み方
Code Arena の順位と35時間タスクから、中国モデルのコーディング能力を冷静に読む。

「AIコーディング、中国勢が世界2位」――この手の見出しは、正直、話半分で読む癖がついています。中国の発表ものは、ランキングの切り取り方で「世界◯位」がいくらでも作れるからです。

なので今回も、誇張を一枚ずつ剥がしながら、アリババの Qwen3.7-Max が本当に何を達成したのかを見ていきます。結論から言うと――剥がした後でも、これはかなり効く話でした。

まず、ランキングの「正確な順位」を確かめる

中国メディアの見出しは「世界2位」と書きがちですが、正確に言うとこうです。

コーディング評価プラットフォーム Code Arena で、Qwen3.7-Max は 1541点を記録。これは GPT-5.5 や Gemini 3.5 Flash を上回り、上にいるのは Claude(Opus 4.7 と 4.6)だけ。つまり「Claude シリーズに次ぐ」という意味では事実上のトップ級で、グローバルでは4位前後/中国勢としては明確に1位、というのが正確な解像度です。

ここで大事なのは Code Arena の性質です。これは固定の問題集を解く静的ベンチマークではなく、開発者が実際の開発ニーズを投げ、モデルがゼロから動くWebアプリを丸ごと生成する動的な評価です。つまり「テスト対策」が効きにくい。だから 1541点 は、暗記ではなく実戦に近い数字として読めます。

「中国勢で唯一、世界のトップテーブルに着いた」――この一行は、誇張を外しても残りました。

本当に効くのは「35時間、止まらず働く」ほう

スコアより私が注目したのは、アリババがこのモデルに付けたラベルです。Agent Foundation Model(エージェント基盤モデル)。賢さの自慢ではなく、「長時間、自律で働けること」を前面に出してきました。

具体的な数字があります。社内テストで、Qwen3.7-Max は一つの自律タスクを35時間ぶっ通しで走らせ、1158回のツール呼び出しと432回のカーネル評価をこなした、と。しかもその舞台が、アリババ傘下・平頭哥(T-Head)の新チップ M890 プラットフォーム上でのハードウェア最適化タスクだった、という点も示唆的です(ここでも自前シリコンが出てくる)。

エージェント系のベンチでも、SWE-Pro 60.6、Terminal-Bench 2.0 69.7、GPQA Diamond 92.4 と、DeepSeek V4 Pro や Claude Opus 4.6 を上回る項目を出しています。コンテキストは100万トークン。

「一問一答が上手い」から「半日以上、自分でツールを使い続けてタスクを完遂する」へ。AIコーディングの勝負どころが、賢さから持久力と自律性へ移ってきている。Qwen3.7-Max は、その移動をはっきり体現したモデルだと思います。

個人的な見方

日本のエンジニアにとって、これは他人事ではありません。いま日本の開発現場でも、Claude や GPT を使ったコーディングは急速に広がっています。その「使う側」の選択肢に、Claude のすぐ下に、オープンに近い形でアクセスできる中国製の選択肢が並び始めた、というのが今回の本質です。

正直に書くと、これらの数字はアリババ自身の発表・社内テストを含み、第三者による完全な再現検証はこれからです。そこは差し引くべきです。それでも、Code Arena のような動的評価で Claude のすぐ下まで来ている、という事実は重い。

そして見落としたくないのは、「賢さ」より「35時間働き続けられるか」という評価軸が前に出てきたことです。これは、要は、「賢い」だけじゃもう足りなくて、「何時間でも手を動かし続けられるか」のほうが勝負になってきた。で、そこに Claude と並んで Qwen がいる。使う側としては、選択肢が増えたこと自体がいいニュースです。

(順位・スコア・35時間タスクの数値はアリババ発表および各種報道ベースで、独立検証はこれからである点を補足しておきます。)

―― AI未来編集室「AIウォッチ」

← 一覧へ