ロボット・マルチモーダル深掘り3分で読めます

「一言で、ビジュアル一式」を作る ―― テンセントのクリエイティブAgent「Miora」

この記事の読み方
一言からビジュアル一式を作るクリエイティブAgentを、制作ワークフローの変化として読む。

AIで画像を作る、動画を作る、3Dを作る ―― それぞれ別々のツールでやってる人、多いですよね。画像はこのアプリ、動画はあのサービス、UIはまた別の…。テンセント（テンセント）が出してきた Miora（妙境） は、その「バラバラ」をひとつにまとめにきた、クリエイティブ特化のAIエージェントです。

香港の Cloud Day で国際版の招待テストが始まりました。何が新しいのか、エージェントの設計という観点から見ていきます。

「ツール」ではなく「エージェント」だという点

ここが一番大事なところです。Miora は、画像生成ツールでも動画生成ツールでもありません。クリエイティブ・エージェントです。違いはこうです。

普通のAI画像ツールは「プロンプトを入れる → 画像が出る」。一往復で終わり。Miora の核になっているエージェントは、そうじゃない。まずユーザーの意図を理解して、そこから自分で実行計画を立てる。 「この依頼を実現するには、まず画像をこう作って、次に動画化して、UIに組んで…」という段取りを自分で組み、内蔵する画像・動画・3D・UI/UX の4つのネイティブ処理エンジンを呼び分け、自分でスクリプトを書いて、専門的なワークフローとして仕上げる。

つまり「一枚の絵を出すツール」ではなく、「ビジュアル制作の段取り全体を回すエージェント」。一言で依頼すると、ビジュアル一式が返ってくる、というのが狙いです。

キャンバスと記憶 ―― 二つの工夫

技術的に面白いのが、二つあります。

ひとつめは、ひとつの自由なキャンバス。画像、動画、3Dモデル、テキスト ―― すべての制作要素を、ノード（節点）の形で同じ一枚のキャンバスに置く。バラバラのファイルやタブを行き来するんじゃなく、全部が一面に並んでいて、つながっている。制作の「流れ」そのものが見える形になってる。

ふたつめは、記憶システム。これがエージェントらしいところです。Miora は、プロジェクトの素材や過去の対話を覚えているだけじゃない。ユーザーの審美の傾向、デザインの方法論、プロジェクトの文脈まで理解して覚える、とされています。つまり使い込むほど「この人はこういうトーンが好き」を学んで、出力が自分に寄ってくる。毎回ゼロから説明し直さなくていい、という設計です。

そして、これから来る機能として予告されているのが、複数人×複数Agentのリアルタイム協働。一枚のキャンバスの上で、何人かのデザイナーと、何体ものAIエージェントが、同時に一緒に作業する。人間のデザインチームに、AIのメンバーが何人か混ざる、みたいな絵ですね。

（なお現時点では国際版が招待コード制のテスト段階で、実際の出力品質やビジネス面の詳細は、まだ発表稿ベースです。そこは差し引いて読んでください。）

個人的な見方

Miora そのものより、私が注目してるのは、この製品が示してる方向です。AIの使われ方が、「単機能ツール」から「段取りごと任せるエージェント」へ移ってきてる。コーディングの世界で起きたこと（一行補完 → タスク丸ごと任せるエージェント）が、クリエイティブの世界でも始まってる、ということなんですよね。

日本は、デザイン・広告・アニメ・ゲームみたいなクリエイティブ産業がとても強い。だからこそ、この「制作の段取りをエージェントに任せる」流れは、けっこう真剣に見ておく価値があると思ってます。脅威として、というより、道具として。一枚絵を出すAIなら使ってる人は多いけど、「画像→動画→3D→UIまでを一気通貫で段取るエージェント」は、まだ現場の標準にはなってない。ここが普及したとき、制作のスピードと、一人でできる範囲が、たぶん大きく変わる。

テンセントがここに本気のエージェントを投入してきた、というのは、クリエイティブAIの競争が「きれいな一枚を出す」フェーズを終えて、「制作プロセス全体を握る」フェーズに入った、というサインだと受け取ってます。私がいま気になってるのは、そっちの動きです。

―― AI未来編集室「AIウォッチ」

← 一覧へ

「一言で、ビジュアル一式」を作る ―― テンセントのクリエイティブAgent「Miora」

「ツール」ではなく「エージェント」だという点

キャンバスと記憶 ―― 二つの工夫

個人的な見方

関連記事