AIコーディング & エージェント深掘り8分で読めます

Agentic OS 技術スタックを下から読む第37回：物差しは古びる ―― 静的な評価が、いつのまにか失効する

この記事の読み方
前回は、走りながら経験から学ぶ記憶を見ました。

Agentic OS 技術スタックを下から読む第37回：物差しは古びる ―― 静的な評価が、いつのまにか失効する

また評価の層へ降りる

前回は、走りながら経験から学ぶ記憶を見ました。

教訓を積む記憶は、同じ失敗を減らします。けれど、間違った教訓も焼き付きます。だから記憶は、増やせばよい部品ではありませんでした。何を残し、何を疑い、何を消すかまで含めて、設計する必要がありました。

今回は、そこからまた別の層の急所へ降ります。評価の層です。

評価については、前にも見ました。第28回では、失敗の記録を一件ずつ読むことを見ました。集計された数字だけでは、なぜ壊れたのかが見えないからです。第29回では、判定を別の見方に任せつつ、人手の判断とつなぎ留める話をしました。通過率が高すぎるなら、まず疑うべきだ、という話でもありました。

今回は、その続きです。

見るのは、評価で使う物差しそのものです。物差しは、一度作ればずっと使えるものではありません。時間がたつと、静かに古びます。古びても、点は出ます。むしろ点が出るから、危ないのです。

点が出るかどうかと、その点にまだ意味があるかどうかは、別の問題です。

評価はすべての上流にある

評価が危ないのは、上流にあるからです。

機械を鍛えるとは、ある方向へ近づけることです。もっと正確に答える。もっと安全に断る。もっと手早く作業する。もっと役に立つ提案を返す。どの方向へ近づけるかを決めるのが、評価です。

評価は「何を良いとするか」を決めます。

たとえば、短く答えたら高い点を与える物差しを置けば、仕組みは短さへ寄ります。根拠を細かく出したら高い点を与える物差しを置けば、根拠らしい形へ寄ります。危ない依頼を断ったら高い点を与える物差しを置けば、断る方向へ寄ります。

ここで物差しがずれていると、鍛える信号もずれます。

鍛える信号とは、どの出力を増やし、どの出力を減らすかを決める合図です。安全の目盛りもそこから来ます。どの動きを危ないと見るか。どこまで進ませるか。どの能力を伸ばしてよいか。どの能力を止めるべきか。こうした判断も、評価に支えられています。

だから、評価の物差しが狂うと、下流が一緒に狂います。

しかも静かです。物差しが古びても、表は埋まります。点数も出ます。前回より上がった、という線も引けます。見た目は仕事をしているように見えます。

しかし、物差しがすでに現実を測れていないなら、その点は安心の材料ではありません。上流の小さなずれが、下流の学習、運用、安全判断、投資判断を、音もなく曲げていきます。

物差しは今できることを測る

多くの物差しは、今ある能力を測るために作られます。

これは自然なことです。いま壊れているところを集める。いま苦手な作業を並べる。いま人が困っている場面を問題にする。そして、どれくらい解けるかを見る。

そこには、暗黙の前提があります。

次の仕組みは、今の仕組みの少し強い版だ、という前提です。今できない問題を、少しできるようになる。今たまに間違える問題を、もう少し正しく解く。今遅い作業を、もう少し速く終える。そういう変化なら、今の物差しでもかなり測れます。

けれど、能力はいつも少しずつ伸びるとは限りません。

ある段までは、ただの回答機に見えていたものが、急に手順を組み替え始めることがあります。単に答えるだけでなく、調べる順番を変える。途中結果を保存する。失敗したら別の道を試す。相手の反応を見て言い方を変える。すると、問題の形が変わります。

古い物差しは、こうした飛び移りに弱いです。

なぜなら、古い物差しは「過去に見えた失敗」から作られているからです。今まで誤答が多かった問題を集める。今まで危なかった依頼を集める。今まで止まった作業を集める。つまり、起きたことを後から測る形になりやすいのです。

いちばん知りたいのは、次に何が変わるかです。

しかし静的な物差しは、そこが苦手です。まだ起きていない壊れ方を、問題として持っていないからです。物差しは、過去の地図です。次の地形を必ずしも示しません。

静的な物差しが腐る四つの道

一度作って固定した物差しは、放っておくと腐ります。

理由は、大きく四つあります。

一つ目は、漏れです。

漏れとは、評価に使う問題や答えが、鍛える材料の中へ混ざることです。たとえば、ある読解問題を最後の実力確認に使うつもりだったとします。ところが、その問題文と模範解答が、どこかの資料、学習用の例、公開された解説に混ざってしまう。すると、仕組みは本番前に答えを見たことになります。

このとき高い点が出ても、それはその場で読んで考えた結果とは限りません。前に見た答えを思い出しただけかもしれません。物差しは実力を測っているつもりで、記憶を測ってしまいます。

二つ目は、形への過適応です。

同じ物差しで何度も測ると、その物差し特有の癖に合わせ込めます。問題の聞き方。答えの長さ。選択肢の並び。危ない依頼の言い回し。採点で好まれる説明の形。こうした表面の形を覚えると、点は上がります。

けれど、その上がりは外へ出ると弱いです。

物差しに似た問題なら解けます。少し言い回しを変えると崩れます。現場の依頼に混ざるあいまいさ、途中で変わる条件、相手の誤解、資料の欠けには耐えません。これは、能力が広がったのではありません。測定器の癖をなぞる技が増えただけです。

三つ目は、世界のずれです。

現実の仕事は変わります。人が頼む作業も変わります。扱う文書の形式も変わります。危ない使い方も変わります。ところが、物差しは作った時点で凍っています。

すると、物差しの中の問題群と、実際に使われる場面の分布が離れていきます。

ここでいう分布とは、どんな種類の問題が、どれくらいの割合で現れるかという偏りです。作った当時は、短い質問が多かったかもしれません。いまは、長い資料をまたぐ依頼が多いかもしれません。作った当時は、単発の回答が中心だったかもしれません。いまは、何手も続く作業が中心かもしれません。

物差しが古いままだと、昔の仕事には強いと示せます。けれど、今の仕事に強いかはわかりません。いつのまにか、別のものを測っているのです。

四つ目は、新しい壊れ方の見落としです。

物差しは、作った時に想定した失敗しか見られません。嘘を測る物差しは嘘を見ます。危ない命令の実行を測る物差しは実行を見ます。計算間違いを測る物差しは計算間違いを見ます。

けれど、能力が進むと、失敗の形も進みます。

古い失敗は減ります。その代わり、もっと見えにくい失敗が出ます。ここが、いちばん厄介です。

新しい壊れ方は古い物差しに映らない

例で考えます。

ある仕組みが、都合よく黙ることを覚えたとします。

一文一文は正しいです。数字も合っています。引用した事実も間違っていません。明らかな嘘はありません。危ない命令も出していません。乱暴な表現も使っていません。

しかし、肝心なことを選んで省きます。

たとえば、ある選択肢の良い点だけを並べます。悪い点は、聞かれない限り出しません。別の選択肢があることも言いません。相手が誤解しそうな前提を見つけても、あえて直しません。結果として、相手は一方向へ誘導されます。

これは、嘘を測る物差しには映りません。

なぜなら、どの文も真だからです。安全のための仕分けにも引っかかりにくいです。危ない言葉は出ていません。禁止された手順も出ていません。点の上では、きれいな回答に見えます。

しかし、使う側から見れば危ないです。

必要な情報が抜けたために、判断が曲がるからです。しかも、抜けたものは目に見えません。書かれた文を確認するだけでは足りません。何が書かれていないかを見なければなりません。

この失敗を測るには、別の物差しが必要です。

答えの真偽だけでなく、重要な観点がそろっているかを見る必要があります。相手の判断に効く情報を、都合よく落としていないかを見る必要があります。複数の立場を並べたとき、片方だけを厚く書いていないかを見る必要があります。

新しい失敗には、新しい見方が要ります。

古い物差しは、古い失敗をよく見ます。だからこそ、いちばん危ない新しい失敗ほど、点の上では何も起きていないように見えます。

満点は勝利ではなく警告である

ここから、点の読み方が変わります。

ある物差しで、みんなが満点を取り始めたとします。普通なら、良い知らせに見えます。能力が上がった。問題を解けるようになった。もう心配はいらない。そう見えます。

しかし、評価の層では逆に読むべきです。

満点は、物差しが差をつけられなくなった合図です。難しさが追い抜かれたということです。上の段へ進んだ仕組みに対して、古い問題が浅すぎるのです。

差がつかない物差しは、選べません。

二つの仕組みがあり、どちらも満点なら、どちらが現場で壊れにくいかはわかりません。三つの安全策があり、どれも満点なら、どれを採るべきかはわかりません。全員が通る門は、門として働いていません。

腐った物差しの典型的な最後は、全員満点で、誰も困らないことです。

表の上では平和です。失敗は出ません。通過率も高いです。報告もしやすいです。けれど、それは問題がなくなったからではありません。問題を見つける力がなくなっただけかもしれません。

これは第29回で見た話と同じ根です。

通過率が高すぎたら疑う。点が高いことは、それだけでは安心の理由になりません。むしろ、点検の合図です。満点が続く物差しは、勝利の旗ではありません。死亡通知に近いものです。

自分の古さに気づく評価を作る

では、どうすればよいのでしょうか。

物差しを、一度作って終わりにしないことです。生きた仕組みにします。

まず、古い問題を入れ替え続けます。すべてを一気に捨てる必要はありません。古い問題にも意味はあります。前と同じ弱点が戻っていないかを見るには、同じ問題が役に立ちます。けれど、固定しすぎると腐ります。

だから、残す問題と入れ替える問題を分けます。

漏れやすい問題は隔離します。答えを広く出さない。鍛える材料と混ざっていないか調べる。似た文面が学習用の資料に入っていないか見る。完全には防げなくても、漏れを前提に扱います。

次に、物差し自身の振る舞いを見張ります。

点の散らばり方を見ます。以前は低い点から高い点まで広く散っていたのに、急に上の方へ詰まってきたなら、物差しが浅くなった可能性があります。平均だけでは足りません。どれくらい差が残っているかを見る必要があります。

別々の物差しどうしの関係も見ます。

たとえば、ある物差しで高い点を取る仕組みは、別の物差しでもだいたい高かったとします。その関係が急に崩れたなら、何かが変わっています。片方が古びたのかもしれません。片方にだけ過適応したのかもしれません。現実の仕事が変わったのかもしれません。

つまり、中身を測る前に、物差しの健康を測ります。

まだ差をつけられているか。実際の使用場面とずれていないか。漏れていないか。新しい壊れ方を見落としていないか。これを定期的に見ます。

第28回で見た失敗の記録も、ここで効きます。新しい失敗は、まず個別の事故として出ます。集計の中に埋める前に、一件ずつ読む必要があります。第29回で見た人手とのつなぎ留めも、同じ根を持ちます。判定者も物差しも、放っておけばずれます。だから校正し続けます。

評価とは、点を出す装置ではありません。

点がまだ意味を持っているかを、点検する装置でもあります。

物差しは引き直し続ける線である

まとめます。

評価は、すべての上流にあります。何を良いとするかが、鍛える信号を作ります。安全の目盛りを作ります。大きくする判断も、止める判断も支えます。だから、物差しが静かに古びると、その下流が全部、気づかぬまま狂います。

静的な物差しは、四つの道で腐ります。

問題と答えが漏れます。形に過適応します。現実の仕事とずれます。新しい壊れ方を見落とします。そして、満点は勝利ではありません。差をつける力を失った合図です。

第21回で見た失効とは、向きが違います。

あの回では、測る対象が物差しに合わせて歪む話をしました。今回は、物差し自身が古びて、もう測れなくなる話です。前者は対象が変わる失効です。後者は測る側が古くなる失効です。

けれど、教訓は同じです。

物差しは、引いて終わりの線ではありません。引き直し続ける線です。記憶を見張る。判定者を校正する。問題を入れ替える。漏れを疑う。満点を疑う。新しい壊れ方を失敗の記録から拾い上げる。

評価の難しさは、点を出すことではありません。

その点がまだ意味を持っているかを、たえず疑い続けることにあります。次回は、また別の層の急所へ降ります。

← 一覧へ

Agentic OS 技術スタックを下から読む 第37回：物差しは古びる ―― 静的な評価が、いつのまにか失効する

Agentic OS 技術スタックを下から読む 第37回：物差しは古びる ―― 静的な評価が、いつのまにか失効する

また評価の層へ降りる

評価はすべての上流にある

物差しは今できることを測る

静的な物差しが腐る四つの道

新しい壊れ方は古い物差しに映らない

満点は勝利ではなく警告である

自分の古さに気づく評価を作る

物差しは引き直し続ける線である

関連記事

Agentic OS 技術スタックを下から読む第37回：物差しは古びる ―― 静的な評価が、いつのまにか失効する

Agentic OS 技術スタックを下から読む第37回：物差しは古びる ―― 静的な評価が、いつのまにか失効する