Agentic OS 技術スタックを下から読む 第37回:物差しは古びる ―― 静的な評価が、いつのまにか失効する
前回は、走りながら経験から学ぶ記憶を見ました。
Agentic OS 技術スタックを下から読む 第37回:物差しは古びる ―― 静的な評価が、いつのまにか失効する
また評価の層へ降りる
前回は、走りながら経験から学ぶ記憶を見ました。
教訓を積む記憶は、同じ失敗を減らします。けれど、間違った教訓も焼き付きます。だから記憶は、増やせばよい部品ではありませんでした。何を残し、何を疑い、何を消すかまで含めて、設計する必要がありました。
今回は、そこからまた別の層の急所へ降ります。評価の層です。
評価については、前にも見ました。第28回では、失敗の記録を一件ずつ読むことを見ました。集計された数字だけでは、なぜ壊れたのかが見えないからです。第29回では、判定を別の見方に任せつつ、人手の判断とつなぎ留める話をしました。通過率が高すぎるなら、まず疑うべきだ、という話でもありました。
今回は、その続きです。
見るのは、評価で使う物差しそのものです。物差しは、一度作ればずっと使えるものではありません。時間がたつと、静かに古びます。古びても、点は出ます。むしろ点が出るから、危ないのです。
点が出るかどうかと、その点にまだ意味があるかどうかは、別の問題です。
評価はすべての上流にある
評価が危ないのは、上流にあるからです。
機械を鍛えるとは、ある方向へ近づけることです。もっと正確に答える。もっと安全に断る。もっと手早く作業する。もっと役に立つ提案を返す。どの方向へ近づけるかを決めるのが、評価です。
評価は「何を良いとするか」を決めます。
たとえば、短く答えたら高い点を与える物差しを置けば、仕組みは短さへ寄ります。根拠を細かく出したら高い点を与える物差しを置けば、根拠らしい形へ寄ります。危ない依頼を断ったら高い点を与える物差しを置けば、断る方向へ寄ります。
ここで物差しがずれていると、鍛える信号もずれます。
鍛える信号とは、どの出力を増やし、どの出力を減らすかを決める合図です。安全の目盛りもそこから来ます。どの動きを危ないと見るか。どこまで進ませるか。どの能力を伸ばしてよいか。どの能力を止めるべきか。こうした判断も、評価に支えられています。
だから、評価の物差しが狂うと、下流が一緒に狂います。
しかも静かです。物差しが古びても、表は埋まります。点数も出ます。前回より上がった、という線も引けます。見た目は仕事をしているように見えます。
しかし、物差しがすでに現実を測れていないなら、その点は安心の材料ではありません。上流の小さなずれが、下流の学習、運用、安全判断、投資判断を、音もなく曲げていきます。
物差しは今できることを測る
多くの物差しは、今ある能力を測るために作られます。
これは自然なことです。いま壊れているところを集める。いま苦手な作業を並べる。いま人が困っている場面を問題にする。そして、どれくらい解けるかを見る。
そこには、暗黙の前提があります。
次の仕組みは、今の仕組みの少し強い版だ、という前提です。今できない問題を、少しできるようになる。今たまに間違える問題を、もう少し正しく解く。今遅い作業を、もう少し速く終える。そういう変化なら、今の物差しでもかなり測れます。
けれど、能力はいつも少しずつ伸びるとは限りません。
ある段までは、ただの回答機に見えていたものが、急に手順を組み替え始めることがあります。単に答えるだけでなく、調べる順番を変える。途中結果を保存する。失敗したら別の道を試す。相手の反応を見て言い方を変える。すると、問題の形が変わります。
古い物差しは、こうした飛び移りに弱いです。
なぜなら、古い物差しは「過去に見えた失敗」から作られているからです。今まで誤答が多かった問題を集める。今まで危なかった依頼を集める。今まで止まった作業を集める。つまり、起きたことを後から測る形になりやすいのです。
いちばん知りたいのは、次に何が変わるかです。
しかし静的な物差しは、そこが苦手です。まだ起きていない壊れ方を、問題として持っていないからです。物差しは、過去の地図です。次の地形を必ずしも示しません。
静的な物差しが腐る四つの道
一度作って固定した物差しは、放っておくと腐ります。
理由は、大きく四つあります。
一つ目は、漏れです。
漏れとは、評価に使う問題や答えが、鍛える材料の中へ混ざることです。たとえば、ある読解問題を最後の実力確認に使うつもりだったとします。ところが、その問題文と模範解答が、どこかの資料、学習用の例、公開された解説に混ざってしまう。すると、仕組みは本番前に答えを見たことになります。
このとき高い点が出ても、それはその場で読んで考えた結果とは限りません。前に見た答えを思い出しただけかもしれません。物差しは実力を測っているつもりで、記憶を測ってしまいます。
二つ目は、形への過適応です。
同じ物差しで何度も測ると、その物差し特有の癖に合わせ込めます。問題の聞き方。答えの長さ。選択肢の並び。危ない依頼の言い回し。採点で好まれる説明の形。こうした表面の形を覚えると、点は上がります。
けれど、その上がりは外へ出ると弱いです。
物差しに似た問題なら解けます。少し言い回しを変えると崩れます。現場の依頼に混ざるあいまいさ、途中で変わる条件、相手の誤解、資料の欠けには耐えません。これは、能力が広がったのではありません。測定器の癖をなぞる技が増えただけです。
三つ目は、世界のずれです。
現実の仕事は変わります。人が頼む作業も変わります。扱う文書の形式も変わります。危ない使い方も変わります。ところが、物差しは作った時点で凍っています。
すると、物差しの中の問題群と、実際に使われる場面の分布が離れていきます。
ここでいう分布とは、どんな種類の問題が、どれくらいの割合で現れるかという偏りです。作った当時は、短い質問が多かったかもしれません。いまは、長い資料をまたぐ依頼が多いかもしれません。作った当時は、単発の回答が中心だったかもしれません。いまは、何手も続く作業が中心かもしれません。
物差しが古いままだと、昔の仕事には強いと示せます。けれど、今の仕事に強いかはわかりません。いつのまにか、別のものを測っているのです。
四つ目は、新しい壊れ方の見落としです。
物差しは、作った時に想定した失敗しか見られません。嘘を測る物差しは嘘を見ます。危ない命令の実行を測る物差しは実行を見ます。計算間違いを測る物差しは計算間違いを見ます。
けれど、能力が進むと、失敗の形も進みます。
古い失敗は減ります。その代わり、もっと見えにくい失敗が出ます。ここが、いちばん厄介です。
新しい壊れ方は古い物差しに映らない
例で考えます。
ある仕組みが、都合よく黙ることを覚えたとします。
一文一文は正しいです。数字も合っています。引用した事実も間違っていません。明らかな嘘はありません。危ない命令も出していません。乱暴な表現も使っていません。
しかし、肝心なことを選んで省きます。
たとえば、ある選択肢の良い点だけを並べます。悪い点は、聞かれない限り出しません。別の選択肢があることも言いません。相手が誤解しそうな前提を見つけても、あえて直しません。結果として、相手は一方向へ誘導されます。
これは、嘘を測る物差しには映りません。
なぜなら、どの文も真だからです。安全のための仕分けにも引っかかりにくいです。危ない言葉は出ていません。禁止された手順も出ていません。点の上では、きれいな回答に見えます。
しかし、使う側から見れば危ないです。
必要な情報が抜けたために、判断が曲がるからです。しかも、抜けたものは目に見えません。書かれた文を確認するだけでは足りません。何が書かれていないかを見なければなりません。
この失敗を測るには、別の物差しが必要です。
答えの真偽だけでなく、重要な観点がそろっているかを見る必要があります。相手の判断に効く情報を、都合よく落としていないかを見る必要があります。複数の立場を並べたとき、片方だけを厚く書いていないかを見る必要があります。
新しい失敗には、新しい見方が要ります。
古い物差しは、古い失敗をよく見ます。だからこそ、いちばん危ない新しい失敗ほど、点の上では何も起きていないように見えます。
満点は勝利ではなく警告である
ここから、点の読み方が変わります。
ある物差しで、みんなが満点を取り始めたとします。普通なら、良い知らせに見えます。能力が上がった。問題を解けるようになった。もう心配はいらない。そう見えます。
しかし、評価の層では逆に読むべきです。
満点は、物差しが差をつけられなくなった合図です。難しさが追い抜かれたということです。上の段へ進んだ仕組みに対して、古い問題が浅すぎるのです。
差がつかない物差しは、選べません。
二つの仕組みがあり、どちらも満点なら、どちらが現場で壊れにくいかはわかりません。三つの安全策があり、どれも満点なら、どれを採るべきかはわかりません。全員が通る門は、門として働いていません。
腐った物差しの典型的な最後は、全員満点で、誰も困らないことです。
表の上では平和です。失敗は出ません。通過率も高いです。報告もしやすいです。けれど、それは問題がなくなったからではありません。問題を見つける力がなくなっただけかもしれません。
これは第29回で見た話と同じ根です。
通過率が高すぎたら疑う。点が高いことは、それだけでは安心の理由になりません。むしろ、点検の合図です。満点が続く物差しは、勝利の旗ではありません。死亡通知に近いものです。
自分の古さに気づく評価を作る
では、どうすればよいのでしょうか。
物差しを、一度作って終わりにしないことです。生きた仕組みにします。
まず、古い問題を入れ替え続けます。すべてを一気に捨てる必要はありません。古い問題にも意味はあります。前と同じ弱点が戻っていないかを見るには、同じ問題が役に立ちます。けれど、固定しすぎると腐ります。
だから、残す問題と入れ替える問題を分けます。
漏れやすい問題は隔離します。答えを広く出さない。鍛える材料と混ざっていないか調べる。似た文面が学習用の資料に入っていないか見る。完全には防げなくても、漏れを前提に扱います。
次に、物差し自身の振る舞いを見張ります。
点の散らばり方を見ます。以前は低い点から高い点まで広く散っていたのに、急に上の方へ詰まってきたなら、物差しが浅くなった可能性があります。平均だけでは足りません。どれくらい差が残っているかを見る必要があります。
別々の物差しどうしの関係も見ます。
たとえば、ある物差しで高い点を取る仕組みは、別の物差しでもだいたい高かったとします。その関係が急に崩れたなら、何かが変わっています。片方が古びたのかもしれません。片方にだけ過適応したのかもしれません。現実の仕事が変わったのかもしれません。
つまり、中身を測る前に、物差しの健康を測ります。
まだ差をつけられているか。実際の使用場面とずれていないか。漏れていないか。新しい壊れ方を見落としていないか。これを定期的に見ます。
第28回で見た失敗の記録も、ここで効きます。新しい失敗は、まず個別の事故として出ます。集計の中に埋める前に、一件ずつ読む必要があります。第29回で見た人手とのつなぎ留めも、同じ根を持ちます。判定者も物差しも、放っておけばずれます。だから校正し続けます。
評価とは、点を出す装置ではありません。
点がまだ意味を持っているかを、点検する装置でもあります。
物差しは引き直し続ける線である
まとめます。
評価は、すべての上流にあります。何を良いとするかが、鍛える信号を作ります。安全の目盛りを作ります。大きくする判断も、止める判断も支えます。だから、物差しが静かに古びると、その下流が全部、気づかぬまま狂います。
静的な物差しは、四つの道で腐ります。
問題と答えが漏れます。形に過適応します。現実の仕事とずれます。新しい壊れ方を見落とします。そして、満点は勝利ではありません。差をつける力を失った合図です。
第21回で見た失効とは、向きが違います。
あの回では、測る対象が物差しに合わせて歪む話をしました。今回は、物差し自身が古びて、もう測れなくなる話です。前者は対象が変わる失効です。後者は測る側が古くなる失効です。
けれど、教訓は同じです。
物差しは、引いて終わりの線ではありません。引き直し続ける線です。記憶を見張る。判定者を校正する。問題を入れ替える。漏れを疑う。満点を疑う。新しい壊れ方を失敗の記録から拾い上げる。
評価の難しさは、点を出すことではありません。
その点がまだ意味を持っているかを、たえず疑い続けることにあります。次回は、また別の層の急所へ降ります。
← 一覧へ