ロボット・マルチモーダル深掘り4分で読めます

写真一枚と音声で「話す人間」を作る ―― 美団のオープンソースデジタルヒューマンと、日本のアバター文化

この記事の読み方
写真一枚と音声から話す人間を作るオープンソースデジタルヒューマンを、日本のアバター文化と並べる。

写真を一枚と、音声を一つ。それだけで、自然に喋り、表情を動かし、身振りまでする「人間の動画」が出来上がる。しかも、その仕組みのソースコードと重みが、誰でも商用に使える形で公開されている ―― 美団（Meituan）がオープンソース化したデジタルヒューマン（デジタルヒューマン）動画生成モデル LongCat-Video-Avatar 1.5 は、そういうものです。

フードデリバリーの会社がなぜ？と思うかもしれません。でも中国の大手は、検索でも EC でも配車でも、軒並み自前の大規模モデルを抱える時代に入っています。美団もその一つで、これはその技術チームの成果です。

何ができて、何が新しいのか

ベースは同社の動画基盤モデル LongCat-Video。「一つのモデルで複数タスク」という設計を引き継ぎ、音声＋テキスト→動画、音声＋テキスト＋画像→動画、動画の続き生成、までを一つでこなします。

1.5 での主な進歩は、地味だけれど実務的です。

音声エンコーダを Wav2Vec2 から Whisper-Large に換装し、口の動きの同期がより滑らかに。Whisper は OpenAI が99言語・68万時間の音声で訓練したもので、当然日本語の口形同期にも効く。
DMD2 蒸留で推論を8ステップまで圧縮し、480P/720P・INT8量子化に対応 ―― つまりクラウドの高い API に頼らず、手元のマシンで回せる水準。
真人だけでなくアニメキャラや動物にも口パクを付けられる。これは後で効いてきます。

そして数字。同社公表の比較評価では、自然さ・リアルさ・安定性で一部のトップ級クローズドモデルを上回り、Kling Avatar 2.0 に対して勝率65.9%、HeyGen に対して54.3%だとしています。ライセンスは MIT。ロイヤリティも制限もなく、自由に配備・改造できます。

日本の「アバター文化」と、どこが噛み合うのか

ここからが、日本にいる私たちにとって面白いところです。日本は世界でも有数のアバター大国です。ただし ―― その強さは、中国が出してきたものとは、立っている場所がかなり違います。

日本のアバターの中心は VTuber に代表される文化的・IP的な強さです。矢野経済研究所の調査では、にじさんじの認知率95.0%、ホロライブ93.5%。運営の ANYCOLOR とカバーは、それぞれ売上高300億円超。カバーの「ホロライブAIモーション」のように、AI×モーションキャプチャの表現力も上がっています。

でも、その土台にあるのは基本的に生身の「中の人」＋高価なモーションキャプチャです。魂のあるキャラクター、ファンとの関係性、IP ―― ここが日本の本当の資産で、これは LongCat のような技術では代替できません。

一方、美団がオープンソースで殴り込んでいるのは、その反対側です。中の人もスタジオも要らず、写真と音声から大量に・安く・自動で喋る人を量産する領域。EC のライブコマース、商品説明、オンライン教育の講師、企業の受付やカスタマーサポート ―― 「魂」より「量とコスト」が効く現場です。市場で言えば、デジタルヒューマン／AIアバター市場は日本でも年平均38.8%という高い成長が見込まれていて（世界平均より速い）、ここはまだ大きく空いています。

個人的な見方

整理すると、こうなります。日本が強いのは「キャラクターとしてのアバター」、中国がオープンソースで一気に押さえにきたのは「ツールとしてのアバター」です。

この二つ、競合じゃないんですよね。噛み合わせの話です。日本には世界に通用するキャラクターIPと、それを愛するファン文化がある。けれど、それを「安く・大量に・多用途で動かす」エンジンの部分は、いま中国がオープンソースで無料配布し始めている。MIT ライセンスというのは、要するに「土台はタダで使っていいから、その上で価値を作れ」というメッセージでもあります。

日本にとっての現実的な問いは、「中国のデジタルヒューマンに負けるかどうか」ではありません。この無料のエンジンを、日本のIPとコンテンツ力の上にどう載せるかです。エンジンを自分で一から作る競争はもう中国が降りてこない速さで走っている。だとすれば、勝負どころは、その上のレイヤー ―― キャラクター、演出、信頼、ローカライズ ―― に移る。LongCat のオープンソース化で、その地図が一枚、勝手に書き換わってしまった。

（なお、勝率65.9%などの数字は美団の自社評価ベースで、独立検証はこれからです。そこは差し引いて読んでください。）

―― AI未来編集室「AIウォッチ」

← 一覧へ

写真一枚と音声で「話す人間」を作る ―― 美団のオープンソースデジタルヒューマンと、日本のアバター文化

何ができて、何が新しいのか

日本の「アバター文化」と、どこが噛み合うのか

個人的な見方

関連記事