中国AI・産業深掘り17分で読めます

操作者から委託者へ――Claude Fable 5 が見せた「任せる仕事」の始まり

この記事の読み方
AI にどこからでも仕事を頼めるようにした。お風呂でも、移動中でも、スマホから進捗を見られる。思いついたら依頼できる。終わったらその場で確認できる。ゴールだけ書けば、調査から実装まで進む。

あるエンジニアが、自分で作った便利な仕組みを消した、という話から始めたいと思います。

AI にどこからでも仕事を頼めるようにした。お風呂でも、移動中でも、スマホから進捗を見られる。思いついたら依頼できる。終わったらその場で確認できる。ゴールだけ書けば、調査から実装まで進む。

効率は上がった。

でも、疲れた。

その人は最後に、スマホから AI に命令できる入口を消しました。

この話は、単なる「AI を使いすぎると疲れる」という生活術ではないと思います。むしろ、これから多くの人がぶつかる仕事の形を、少し早く体験してしまった話です。

AI が一問一答の道具だった時代は、まだ分かりやすかった。こちらが聞く。AI が答える。人間はその答えを読む。使うかどうか決める。

しかし、AI が数時間、場合によっては半日以上、こちらの代わりに作業を進めるようになると、関係が変わります。

人間はもう、細かく操作していない。

やりたいことを伝える。前提を渡す。お金を払う。結果を待つ。最後に受け取れるかどうかを判断する。

これは、道具を操作しているというより、仕事を委託している状態に近い。

Claude Fable 5 の発表で見えた本当の変化は、モデルがどれだけ賢くなったかだけではありません。人間と AI の関係が、「操作者と道具」から「依頼する人と、仕事を引き受ける相手」へ変わり始めたことです。

この記事では、その変化を考えます。

6月9日に起きたこと

Anthropic は 2026年6月9日、Claude Fable 5 と Claude Mythos 5 を発表しました。

Fable 5 は、一般向けに公開された初の Mythos-class モデルです。Anthropic の説明では、Fable 5 は同社が一般提供した中で最も高性能なモデルで、特に長く複雑なタスクで従来モデルとの差が大きくなるとされています。

価格は、入力 100万トークンあたり 10ドル、出力 100万トークンあたり 50ドルです。Mythos Preview より半額未満になりました。

一方で、Fable 5 はそのまま無制限に使えるモデルではありません。

サイバーセキュリティ、生物学・化学、蒸留に関係するリクエストが検出されると、応答は Claude Opus 4.8 に回されます。現在は、こうした別モデルへの切り替えが起きた場合にユーザーへ明示する方針になっています。Anthropic は、Fable のセッションの 95% 超では別モデルへの切り替えは起きないと説明しています。

同じ基盤モデルの制限を一部外した Claude Mythos 5 も発表されましたが、こちらは Project Glasswing のパートナーなど、限られた相手に向けたものです。

公式発表には、目を引く事例も並んでいます。

Stripe の早期テストでは、5000万行の Ruby コードベースに対する全体移行を Fable 5 が 1日で実行したとされています。人間のチームなら 2か月以上かかる見積もりだったという話です。

視覚タスクでは、以前の Claude モデルが複雑な harness を必要とした Pokémon FireRed を、Fable 5 は最小限の vision-only harness だけで最後までクリアしたとされています。

記憶と長文文脈の例では、Slay the Spire をプレイさせた時、永続的なファイル記憶を与えると、Opus 4.8 と比べて性能改善幅が 3倍になり、最終 act に到達する頻度も 3倍になったと説明されています。

科学分野では Mythos 5 の話として、社内のタンパク質設計で一部工程を約 10倍速めたこと、分子生物学の仮説評価で科学者が Opus-class より Mythos の仮説を約 80% 選んだこと、さらに、多数の種にまたがる単一細胞データを扱う genomics 研究を 1週間超のほぼ自律作業で進めたことが紹介されています。ただし、このあたりは Anthropic 自身の説明であり、未発表の結果も含みます。読む側はそこを割り引く必要があります。

ここまでなら、強いモデルの発表です。

でも、今回の本題はそこではありません。

一週間使った研究者が見たもの

Fable 5 を早期に使った研究者の体験記は、今回の発表を読むうえで外せません。

その人は、Fable 5 をサイバーセキュリティ以外のさまざまな用途で試しました。結論は、これまで使った公開モデルより明確に強いというものです。ただし、同時に「楽しい」と「不気味」の間にある体験だったとも書いています。

分かりやすい例が、等時線地図のプロジェクトです。

等時線地図とは、ある都市から一定時間内にどこまで行けるかを可視化する地図です。飛行機、鉄道、徒歩、車、空港までの移動時間、国ごとの道路速度など、細かい判断が大量にあります。これまでのモデルでは、まともに使えるものを作るのが難しかったそうです。

Fable 5 は、この依頼を受けると、自分で複数の安価な Sonnet エージェントを立ち上げ、調査を並列に進めました。最終的に 2200件超の具体的なフライト、TGV や新幹線の時刻表、各国の道路速度に関する論文まで調べながら、地図アプリを作っていきました。

さらに、遠隔地の到達時間が推定に寄っていると指摘されると、今度は対抗的なエージェントのグループを作り、互いに調査結果を検証させました。Pitcairn 島への船便や、Ottawa から Grise Fjord へ行く方法まで調べたといいます。

もう一つの例は、Concord という研究支援ソフトウェアです。

人間の回答や AI の回答を分類し、複数の評価者の判断を比較し、データ分析に使えるように校正する。研究者にとっては長年必要だったが、作るには手間がかかりすぎて商業的には割に合わない種類のソフトウェアです。

Fable 5 は最初に 19ページの設計文書を生成し、その後 9時間半連続で作業しました。できあがったものは完璧ではなく、専門家として見れば修正すべき点もあった。それでも、これまでのモデルで見たことのない範囲の成果だったと書かれています。

ここで大事なのは、地図や研究ソフトそのものではありません。

人間が何をしていたかです。

細かく作業していない。

大きな目標を渡し、少しフィードバックし、最後に結果を見ています。途中で何百もの小さな判断が行われているのに、そのすべてに人間は投票していません。

今回見ておきたいのは、この感覚です。

魔法使いではなく、依頼主になる

その研究者は、以前の AI 体験を「wizard」、つまり呪文を唱えると何かが起きる魔法使いのようなものだと表現していました。

しかし Fable 5 では、その感覚が変わったといいます。彼の感覚では、自分はもう魔法使いではありません。欲しいものを説明し、代金を払い、結果を判断する依頼主に近い。

その変化を、彼は短くこう書いています。

I no longer steer; I commission.

私はもう操縦していない。委託している。

この表現は、今回の変化をよく捉えています。

AI と働く感覚は、最初は「入力して出力をもらう」でした。次に「会話しながら一緒に作る」になりました。さらにコーディングエージェントが出てきて、「一部の作業を任せる」になりました。

Fable 5 が見せているのは、その先です。

一段大きな仕事を、まとまった時間ごと渡す。

これは、単にプロンプトが長くなったという話ではありません。仕事の単位が変わっています。

以前の単位は、だいたい一回の回答でした。

質問する。答える。直す。もう一度聞く。

今見え始めている単位は、「数時間ぶんの作業」です。

設計する。調査する。実装する。別のエージェントを呼ぶ。検証する。結果をまとめる。失敗したら戻る。

人間は、その作業時間を買っている。

だから、価格の見方も変わります。Fable 5 は Opus の 2倍高いというだけでは足りません。高いトークンを買っているというより、AI の作業時間を委託していると見た方が近い。

もちろん、これは危うい見方でもあります。AI の作業は人間の作業と同じではない。品質も安定しない。最後の確認も欠かせません。

それでも、体験としてはもう「操作」ではなく「委託」に近い。

そこが新しい。

仕事の単位が「任せられる時間」になる

METR の task-completion time horizon という指標があります。

人間の専門家ならどれくらい時間がかかるタスクを、AI エージェントが一定の成功率で完了できるかを見るものです。

この指標では、GPT-4o は数分、Claude 3.7 Sonnet は約1時間、o3 は約2時間という水準で、さらに新しい frontier model では数時間から十数時間規模へ伸びている、という見方が示されています。Claude Mythos Preview は、50% time horizon が 16時間以上とされています。

ただし、ここには大きな注意点があります。METR 自身が、16時間を超える測定は現在のタスクセットでは信頼性に限界があるとしています。228個のタスクのうち、16時間以上のものは 5個しかありません。また、Fable 5 本体は、この記事を書いている時点では METR の表に載っていません。

それでも、方向性は見えます。

AI の進歩は、単発の正解率だけでなく、「どれくらい長い仕事を任せられるか」で測られ始めている。

これは、働き方にそのまま響きます。

もし AI が 10分の作業しかできないなら、人間はずっと横にいる必要があります。AI は便利な補助輪です。

もし AI が 2時間の作業を進められるなら、人間はその間、別のことができます。

もし AI が 8時間、12時間の作業を進められるなら、仕事の設計は大きく変わります。朝に仕様を渡し、昼に途中成果を見て、夕方に受け取れるか判断する。夜に長い調査を投げ、朝に結果を見る。複数のエージェントに違う案を走らせ、最後に比較する。

Every のポッドキャスト「AI & I」（2026年6月10日公開、聞き手 Dan Shipper）での Mike Krieger（Anthropic Labs 責任者、Instagram 共同創業者）の発言にも、この感覚は具体的に出ています。Krieger 氏はこの2か月ほど、寝る前に複雑な仕事を Claude に渡す習慣があると話しています。本人いわく、Claude におやすみを言って任せる感覚で、起きると作業の本体は午前2時ごろには終わっている。途中で遠隔サービスが落ちても、モデルは簡単な仮のバックエンドを作り、文書を書き、停止状況を記録し、サービス復旧後に直す前提で先へ進んだといいます。Krieger 氏が感心したのは、最後までやり切ろうとする動きでした。道具というより、多くの仕事を委ねられるチームメイトに感じられる、という見方です。

こうなると、人間の仕事は「AI を操作すること」ではなくなります。

何を任せるかを決めること。

任せる前に、何を成果物とするかを決めること。

途中で何を確認するかを決めること。

最後に、どこまで受け入れるかを判断すること。

つまり、委託者の仕事になります。

委託は、放置ではない

ただ、委託は放置ではありません。

AI エージェントに仕事を渡す能力は、実は管理能力に近い。

何を達成したいのか。なぜそれが必要なのか。どこまで権限を渡すのか。何をしてはいけないのか。完了とは何か。途中で何を報告させるのか。最後に何を検査するのか。

これは、昔から人間同士の仕事で使われてきた技術です。

ソフトウェア開発なら PRD や仕様書があります。映画ならショットリストがあります。建築なら設計意図をまとめた文書があります。軍隊には命令書があります。コンサルティングには成果物の定義があります。

AI エージェントへの指示も、本質的には同じです。

頭の中にある意図を、別の主体の行動に変換する。

だから、これから強くなるのは、プロンプトの小技をたくさん知っている人だけではないと思います。

むしろ、次のことができる人です。

目的を言葉にできる。

制約を明確にできる。

成果物の基準を決められる。

途中報告の粒度を設計できる。

失敗した時にフィードバックできる。

成果を確認し、受け取れる。

この点で興味深いのが、Krieger 氏の Anthropic 内部の話です。彼は、今年の大きな方法論の変化として、確認作業を徹底的に重く見るようになったことを挙げています。Claude が出す pull request には、スクリーンショットや動画を添える。そうすると、「8枚目のスクリーンショットにある error state を直す」といった確認ができます。iOS アプリでは staging の実アカウントに入り、実データで流れを試す。さらに実験中の原型では、Claude 自身が FFmpeg と組み合わせて作ったものの動画を録画し、静止画では落ちる「このアニメーションは少し引っかかる」という種類の問題に気づくこともあるといいます。

同時に、責任の場所は人間に残ります。Krieger 氏は、コードを書いたのが Claude でも、全体の判断は理解していなければならないという趣旨を話しています。会議で「それは X ですか、Y ですか」と聞かれ、「正直まだはっきりしないので、merge する前に理解します」と答えるような場面が増える。これは怠慢ではなく、新しい作業様式への適応です。委託したからこそ、最後に理解して受け取る責任が前に出てきます。

目立つ話ではありません。

でも、委託時代の中心に来るのはここです。

AI が速くなるほど、「何を頼むか」が希少になります。AI が安くなるほど、「よい依頼を作れる人」が強くなります。AI が長く働けるほど、「止め方」と「見方」を設計できる人が必要になります。

五日前の予言

興味深いのは、この話が Fable 5 の発表だけで突然出てきたわけではないことです。

発表の 5日前、同じ研究者は新しい本についての記事で、co-intelligence の段階が終わりつつあると書いていました。

以前の AI は、人間を中心に置いた共同作業の相手でした。人間が問い、AI が答え、人間が自分の知識や懐疑心を加えながら進める。AI は補助役でした。

しかし、AI 企業が長期的に目指していたのは、もっと自律的に経済的価値のある仕事をこなすエージェントです。コーディングエージェントがまずその変化を見せ、同じことは他の分野にも広がる。

その記事では、これからの問いとして、いつ AI の助けを拒むべきか、いつ鍵を渡すべきか、AI が読者や批評家や分配の門番になった時に人間はどう働くのか、という問題が挙げられていました。

そして 5日後、Fable 5 が出ました。

これは偶然というより、同じ変化を別の角度から見たものだと思います。

AI は、もう会話相手だけではありません。

読者になる。調査員になる。実装者になる。検査役になる。時には、別のエージェントを呼び出す管理役のようにも振る舞う。

その時、人間は何をするのか。

Fable 5 は、この問いを具体的な形で突きつけています。

委託の請求書

もちろん、委託には請求書があります。

一つ目は、金銭的な請求書です。

Fable 5 は高い。入力 100万トークンあたり 10ドル、出力 100万トークンあたり 50ドル。研究者の体験記でも、トークン消費は非常に大きく、実運用コストは相当になるだろうと書かれています。

ただ、Krieger 氏の見方では、コストの測り方そのものが複雑になっています。1回のやり取りにいくらかかるかだけではなく、満足できる結果に到達するまでの総コストを見る必要がある。安いモデルで何度も「そうではなく、言いたかったのは」と往復するより、Fable のようなモデルが一度で近い場所まで行くなら、後続のやり取りを減らせます。企業導入についても、彼は段階を分けて見ています。最初は会社が AI コーディングを使わせる段階。次に、誰が多く使ったかをランキング化する段階。そこにはよくない誘因も生まれる。さらに先では、うまく使っている人を見つけ、資源と明確な流れを与える段階に入る。Fable のようなモデルは、特にその三つ目の段階で意味を持つ、という読み方です。

ただ、金額より大きい請求書があります。

それは、見えなさです。

Fable 5 のようなモデルは、長い作業の中で数百の小さな判断をします。どの資料を読むか。どのエージェントを呼ぶか。どの実装方針を採るか。どの結果を信用するか。どこを後回しにするか。

人間は、全部を見ていません。

全部を見るには時間がかかりすぎます。そもそも、見るために委託したのではない。だから最後に結果を見る。必要なら修正させる。

ここに、委託の不気味さがあります。

便利なのに、不安になる。

できているのに、途中が分からない。

自分の意図は通っているように見えるが、途中の判断に参加していない。

この黒箱性は、インターフェースが未熟だから一時的に起きているだけかもしれません。将来、もっとよい可視化や途中介入の方法が出るかもしれない。

ただ、逆の可能性もあります。

モデルが強くなるほど、人間が意味のある形で途中に参加できる場面は減り、黒箱性は能力の代価として残る。

私は、少なくとも一部の仕事では後者に近づくと思います。

確認コストは消えない

冒頭の Zenn 記事に戻ります。

スマホから AI に仕事を投げられるようにした人は、なぜ疲れたのか。

休み時間が仕事に置き換わったからです。

止めどきが消えたからです。

そして、AI の出力が正しいかどうかは、結局自分で判断しなければならなかったからです。

ここで、Fable 5 の話につながります。

AI が長く働けるようになると、人間の作業時間は減るかもしれません。でも、人間の責任は消えません。

むしろ、確認の負荷は重くなることがあります。

小さな回答なら、読むのは簡単です。コード数行なら、見れば分かることも多い。

しかし、9時間半かけて作られた研究ソフトウェアを確認するのは、別の仕事です。2200件超のフライトや複数の交通手段を調べた地図アプリを受け取るのも、簡単ではありません。

AI が大きな成果物を作るほど、人間は「全部を細かく読む」だけでは追いつきません。

確認の設計が必要になります。

どこを重点的に見るか。

どのテストを通すか。

どの前提だけは確認するか。

どの失敗なら許容できるか。

どこから人間の専門家に戻すか。

委託時代の人間は、作業者である以上に、受け取る側になります。しかし、受け取ることは楽な仕事ではありません。

商業的な読み方も必要

ここで、少し冷めた見方も入れておきたい。

Fable 5 の発表に対して、ある批判者は、Mythos は危険すぎて出せないと言っていたのに、結局ガードレールを付けて出したのではないか、と批判しています。2019年の GPT-2 でも、危険性を強く打ち出して注目を集め、最終的に公開する流れがあった。今回も「怖がらせ、盛り上げ、出す」の繰り返しではないか、という見方です。

この批判をそのまま全面的に採る必要はありません。

Mythos-class のサイバー能力や生物学領域のデュアルユースリスクが現実にあるなら、安全策を作って段階的に出すことには意味があります。一般公開版では危険なリクエストを判定して別モデルに回し、より制限の少ない Mythos 5 は Project Glasswing などに限定する設計も、単なる宣伝とは言い切れません。

一方で、商業的な文脈を無視するのも危険です。

最先端モデルは、研究成果であると同時に商品です。危険性の説明は、安全上の必要でもあり、注目を集める物語にもなります。強いモデルを出すことは、ユーザー獲得、企業導入、投資家向けのシグナルにもなります。

だから、読み方は二つ持った方がいい。

一つは、能力が本当に上がったという読み方。

もう一つは、その能力がどう包装され、どう売られ、どの条件で市場に出されるのかを見る読み方。

Fable 5 は、この二つが同時に起きている発表です。

AI が強くなるほど、人間の標準が高くなる

もう一つ、委託の背面にある話があります。

高度な AI を作るには、人間の判断が大量に必要です。報道では、Anthropic が外部プロジェクトを通じて、約 1000名のエンジニアに本番品質のコードを評価させ、1タスクあたり約 280ドルを支払っていたとされています。

これは「AI が人間を不要にする」という単純な話と逆に見えます。

AI が強くなるほど、どのコードが本当に良いのか、どの回答が使えるのか、どこが危ないのかを判断できる人間の基準が必要になる。

Zig が AI 由来の貢献に慎重な姿勢を取り、Linux が人間の署名責任を求め、Cloudflare が AI による初期レビューを使う。こうした動きも、同じ方向にあります。

AI が作れる範囲が広がるほど、人間は「作る人」から「標準を持つ人」へ移る。

仕事が楽になるというより、責任の場所が変わるのです。

日本の職場で何が変わるか

日本の職場で考えると、この変化は大きいと思います。

特に、受託開発や SIer 的な仕事では、「人月」という単位が長く使われてきました。人が何人、何か月働くかで見積もる。良くも悪くも、作業時間と価格が結びついていました。

しかし、AI エージェントが「任せられる作業時間」を持ち始めると、この前提が揺れます。

人間チームが 2か月かかる移行を AI が 1日で進める、という事例が出てくると、見積もりの言語が変わらざるを得ません。

もちろん、すべての案件がそうなるわけではありません。要件定義、顧客調整、既存システムの理解、受け入れ判断、運用責任、障害対応は残ります。むしろ、そこが重くなる可能性もあります。

ただ、「何人月で作るか」だけでは説明できない仕事が増える。

AI に何時間任せるか。

人間がどの粒度で確認するか。

どのリスクは AI に渡さないか。

どこで顧客の承認を取るか。

こうした設計が、見積もりの中心に入ってくるはずです。

もう一つ、日本の組織では「過程が見えること」が重視されがちです。

稟議、報告、議事録、レビュー、承認。結果だけでなく、どう判断したかが問われます。

しかし、Fable 5 のようなエージェントは、途中で大量の判断をします。そのすべてを人間が追うことは現実的ではありません。

では、過程が見えにくい委託を、どう組織で受け入れるのか。

答えは、AI の全思考を覗くことではないと思います。

必要なのは、人間が確認できる中間成果物です。

設計メモ。

調査ログ。

テスト結果。

前提一覧。

未確認事項。

変更差分。

失敗した試行。

人間が見るべき場所を、AI に出させる。そこをレビューする。責任ある人間が承認する。

委託時代の稟議は、AI の作業ログを全部読むことではなく、責任を持てる形に成果を切り出すことになるはずです。

「委託しない」判断

最後に、いちばん大事なことを書きます。

これから必要になるのは、AI に委託する技術だけではありません。

AI に委託しない判断です。

お風呂から AI 入口を消した人は、効率を下げる判断をしました。スマホから命令できる仕組みを消すのは、短期的には不便です。せっかく作ったものを捨てるのは、もったいない。

でも、それによって人間の余白を守った。

この判断は重い。

AI エージェントは、強いエンジンです。強いエンジンを積むほど、ブレーキやサスペンションや座席を設計しなければ、先に壊れるのは乗る側です。

速くする工夫はいくらでもできます。

でも、どこで触らないか。いつレビューしないか。どの時間は AI に依頼しないか。どの仕事は人間が手を動かすか。どの判断は翌日に回すか。

ここまで含めて設計しないと、委託は生活を侵食します。

AI 活用の成熟は、使う量を増やすことではありません。

任せるものと、任せないものを分けることです。

もう委託者になっている

Fable 5 は、まだすべての人が日常的に使うモデルではないかもしれません。高価です。別モデルへの切り替えもあります。安全制限もあります。長時間のエージェント作業をうまく設計するには、まだ人間側の準備が要ります。

それでも、方向は見えました。

AI は、一回の回答を返す相手から、まとまった仕事を預ける相手へ変わりつつあります。

その時、人間の役割は変わります。

うまく命令する人では足りません。

何を任せるかを決める人。

任せる前に成果の定義を作る人。

途中で見るべきものを設計する人。

最後に責任を持って受け取る人。

そして、任せない勇気を持つ人。

これが、委託時代の仕事です。

AI が来たら仕事がなくなるのか、という問いはまだ残ります。けれど、もう少し手前に、もっと実務的な問いがあります。

あなたは、すでに AI に仕事を委託し始めている。

では、委託者としての責任をどう設計するのか。

Fable 5 が見せたのは、その問いだと思います。

参考リンク：

Anthropic: Claude Fable 5 and Claude Mythos 5
Ethan Mollick: What it feels like to work with Mythos
Ethan Mollick: Co-Existence and the End of Co-Intelligence
Ethan Mollick: Management as AI superpower
METR: Task-Completion Time Horizons of Frontier AI Models
Zenn: どこからでもAIで仕事をできるようにしたけど、疲れてやめた話
Gary Marcus: The revenge of Claude Mythos
ZDNET Japan: Anthropic、「Mythos」の一般向けモデル「Claude Fable 5」をリリース

AIウォッチ / gp_lab

← 一覧へ