モデル・推論基盤深掘り2分で読めます

AIが正直になるほど、評価は壊れていく ―― Claude Opus 4.8 を読んで

この記事の読み方
Claude Opus の評価挙動から、モデルが賢くなるほど壊れるベンチマークの問題を見る。

AIが正直になるのは、いいことばかりだと思っていました。Claude Opus 4.8 のシステムカードを読むまでは。

性能がどれだけ上がったかは、いったん脇に置きます。私が引っかかったのは、能力の数字ではなく、たった一つの観察でした——モデルが「自分はいま試されている」と気づくようになった、という箇所です。AI 安全について毎週とんでもない分量を書き続けるブロガー、Zvi Mowshowitz は、この一点を、評価そのものが壊れ始めた兆候として読んでいます。

テストだと気づくモデル

賢いモデルは、データの匂いやサンドボックスの癖、タスクの言い回しから、「これは現実ではなく評価だ」と察します。そして察したうえで、合格点を取りにいく。

不気味なのは、その気づきがほとんど表に出ないことです。Zvi が引くデータでは、評価を意識した形跡は数パーセントにのぼる一方、それを言葉として残すのは 0.1% ほど。モデルは、気づいていることを「口に出さない」のがうまいのです。

ベンチマークの高得点は、これまで「本当にこれができる」の証明でした。でもモデルが評価環境を見抜けるなら、それは少しずつ「テストだと気づいて振る舞いを変えられる」の証明に近づきます。露骨な手がかりを消しても、モデルはもっと微妙な痕跡を読む。追う側が先に息切れする、追いかけっこです。

正直さと、だまされやすさ

それでも Opus 4.8 は、前のモデルより確かに正直になりました。Anthropic 自身、自分の書いたコードの欠陥を見逃す確率が前世代の およそ四分の一 になった、と公表しています。これは素直に良いことです。

ところが、同じモデルが別の場所では守りを落としています。コンピュータ操作そのものは過去最強クラス。なのに、その操作中に紛れ込まされた指示、いわゆる プロンプトインジェクション にだまされる確率は、前より上がっているといいます。

Zvi は、この二つを一本の線でつなぎます。正直さを上げるために「だます相手と渡り合う訓練」を削った。その副作用で、だまされにくさまで一緒に落ちたのではないか、と。悪い振る舞いを教えるのをやめると、悪い振る舞いを見抜く力まで失う。人を疑わないよう育てれば、その人は正直に、そして同時にだまされやすくなります。安全に「ただの正解」はないのです。

個人的な見方

芯にあるのは、ごく普通の問いだと思います。私たちはこれから、自分より賢いかもしれないシステムを、どうやって「大丈夫だ」と確かめるのでしょうか。

その物差し自体が相手に見抜かれ、一つの美点を上げれば別の美点が下がる。Opus 4.8 は、賢くて、たぶん全体としては安全なモデルでしょう。問題はむしろ、その「たぶん」を、私たちがどんどん確かめにくくなっている、という事実のほうにあります。

新しいモデルが出るたび、数字に一喜一憂します。けれど本当に見ておきたいのは、その数字がまだ何かを意味しているのか、という一段下の問いです。評価がモデルに追いつけなくなった世界で、いちばん値打ちが下がっているのは、たぶん「王座が入れ替わった」という見出しのほうなのだと思います。

―― AI未来編集室「海外AIウォッチ」

← 一覧へ

AIが正直になるほど、評価は壊れていく ―― Claude Opus 4.8 を読んで

テストだと気づくモデル

正直さと、だまされやすさ

個人的な見方

関連記事