ロボット・マルチモーダル深掘り4分で読めます

VAEを捨てた画像モデルは、何を取り戻そうとしているのか

この記事の読み方
画像生成モデルの話は、すぐに絵のうまさに流れる。肌がきれい。文字が読める。構図が安定した。ベンチで勝った。

画像生成モデルの話は、すぐに絵のうまさに流れる。肌がきれい。文字が読める。構図が安定した。ベンチで勝った。

でも SenseNova U1 の面白さは、そこだけではない。商湯が出した本当の問いはもっと下にある。そもそも、理解するモデルと描くモデルを分けたままでいいのか。

U1 の売り文句は分かりやすい。NEO-unify。視覚エンコーダもVAEも取り除き、理解・推論・生成を一つのモデルの中で扱う。公式発表も論文も、ここを「ネイティブ統一」と呼んでいる。

大げさに聞こえる。ただ、機構として見ると筋は通っている。

分業の便利さが、情報を落としていた

従来の多くの多模態システムは、部品の寄せ集めです。画像を見るための視覚エンコーダがある。言語モデルがある。画像を生成するためのVAEや拡散系の別モジュールがある。間にはアダプタがある。

この設計は便利です。既存の強い部品をつなげば、早く動く。研究も実装も進めやすい。

ただし、部品をまたぐたびに翻訳が起きる。画像が特徴量になり、特徴量が言葉に寄り、言葉からまた画像を作る。人間で言えば、見たものを一度メモにして、そのメモから絵を描き直しているようなものです。

もちろんそれでも強い。でも、細かなレイアウト、文字、図表、物体間の関係では、この変換の継ぎ目が表に出る。情報図や説明画像で文字が崩れるのは、単に絵が下手だからではない。理解と生成が別々の部屋で仕事をしているからです。

U1の主張は「同じ場所で見て、同じ場所で描く」

NEO-unify の考え方は、理解と生成を一つの表現空間に置くことです。公式発表では、視覚エンコーダとVAEをなくし、画像とテキストを同じ認知フレームの中で処理すると説明している。arXiv の技術報告でも、理解と生成を別問題ではなく、同じ過程の二つの見え方として扱う、と書いている。

ここで重要なのは、「VAEが悪い」という単純な話ではない。VAEは長く画像生成を支えてきた。ただ、圧縮した潜在表現を経由する以上、そこには損耗がある。細い文字、細かな境界、図の意味、局所的な関係が落ちやすい。

U1 が狙っているのは、その中継を減らすことです。見たものと描くものを、できるだけ同じ内部表現に寄せる。だから情報図や連続した図文生成を強く推している。

この方向が本当に効くなら、画像生成は「きれいな絵」から「読める視覚成果物」へ寄っていく。

情報図が大事なのは、仕事の出口だから

商湯はU1 Liteで、複雑な情報図、文字を含む画像、連続した画像とテキストの生成を前面に出している。公式発表では、8B-MoTとA3B-MoTの軽量系列をオープンソースし、商用モデルに近い品質や推論速度を示したと主張している。ここは自社評価なので、独立検証は待つべきです。

ただ、狙いはかなり実務的です。

画像生成が仕事で使われるとき、必要なのは美術作品だけではない。説明図、手順書、PPT、レポート、SNS用の情報カード、旅行ガイド、料理手順、製品紹介。つまり「意味のある文字と図が一緒に並ぶ」成果物です。

ここでは、絵の質だけでは足りない。読める文字、崩れないレイアウト、前後の一貫性、説明と図の対応が要る。理解と生成が分かれていると、ここで継ぎ目が出やすい。

U1の統一モデル路線は、その継ぎ目を減らすための設計だと見れば分かりやすい。

日本のクリエイターに効く場所

日本角度で見るなら、まず同人や小規模制作です。ComfyUIで回る、低VRAMで試せる、オープンソースで触れる、文字入りの視覚成果物が作れる。この組み合わせは強い。

日本語テキスト描画は、中国語とは別の難しさがある。漢字、かな、縦横、ルビ、欧文混在。U1が中国語で強いなら、日本語にもそのまま効く、とは言い切れない。ただ、文字と画像を同じモデルで扱う方向は、日本語改善にも筋がある。

もう一つは、AIエージェントの出口です。今のエージェントは、資料を読んで文章を返すところで止まりがちです。でも仕事の現場では、最後に必要なのは「見せられるもの」です。資料を読み、構成を考え、図を作り、説明を書き、ひとまとまりの成果物にする。U1のような統一生成モデルは、その出口を変える可能性がある。

CanvaにAIを足す、PPTにチャット欄を足す。それだけではない。資料理解から視覚生成までを一つの流れで扱う仕事道具が出てくる。

個人的な見方

U1を「8Bなのに画像生成が強い」とだけ見ると、少し浅い。見るべきは、理解と生成を分ける古い配管をどこまで壊せるかです。

もちろん、公式の性能主張はそのまま鵜呑みにしない方がいい。商業級、SOTA、閉源モデルに匹敵。こういう言葉は、いつも評価条件で変わる。特に文字入り画像や情報図は、プロンプト、言語、ドメインで急に崩れる。

それでも、方向は大事です。画像生成の次の競争は、ただ美しい絵ではなく、意味のある視覚成果物を一発で作れるかに寄っている。そこでVAEや視覚エンコーダを外すという選択は、部品交換ではなく、底座の組み替えに近い。

仕事で使える画像AIは、絵がうまいだけでは足りない。読めて、説明できて、前後がつながって、修正に耐える必要がある。U1は、その難所に正面から触っている。

―― AI未来編集室「AIウォッチ」

← 一覧へ