モデル・推論基盤深掘り4分で読めます

Agentic OS 技術スタックを下から読む第8回：考える力は、どう教えられたか ―― 検証できる答えで鍛える

この記事の読み方
ここまで数回は、モデルを効率の側から見てきた。

ここまで数回は、モデルを効率の側から見てきた。

長い文脈をどう軽く扱うか。
参照する情報をどう絞るか。
近似をどこまで許すか。
複数の仕組みをどう組み合わせるか。

どれも、同じ計算資源でより遠くまで届くための工夫だった。

しかしモデル層には、もう一つの軸がある。
軽いか、速いかではなく、何ができるかである。

この一年で大きく動いたのは、まさにこの能力の作り方だった。とくに、モデルの「考える力」をどう鍛えるかが変わった。

ここで言う「考える」とは、神秘的な意味ではない。モデルが最終的な答えを出す前に、途中の筋道をいったん言葉として展開することを指す。

人が難しい問題を解くとき、頭の中だけで処理しようとすると詰まりやすい。紙に条件を書き出し、式を置き、場合分けをし、途中で矛盾がないかを確かめる。そうすると、最後の答えにたどり着きやすくなる。

モデルでも似たことが起きる。短く単純な問いでは差は小さい。だが、条件が多く、手順を踏まないと間違える問いでは、途中を展開することが効く。いきなり答えを出すより、仮の道筋を書き、そこで使う情報を並べ、順番に処理したほうが正答に近づきやすい。

では、そのような解き方をどう身につけさせるのか。

従来の後訓練では、人が良い答えを書いて見せたり、二つの答えを比べてどちらが好ましいかを選んだりしてきた。これは重要な方法である。人間にとって自然な受け答え、指示への従い方、危ない回答を避ける感覚などは、人の判断を通して整えられてきた。

ただし、人手には限界がある。
一つひとつ手本を書くには時間がかかる。
比較してラベルを付けるにも人が要る。
品質を保とうとすると、さらに手間が増える。

そこで効いたのが、別の発想だった。

世の中には、答えが合っているかどうかを機械で確かめやすい問題がある。たとえば数学の問題では、最終的な数値や式が合っているかを確認できる場合が多い。コードなら、実行してテストに通るかを見られる。すべてが簡単に判定できるわけではないが、少なくとも文章の好みよりは、正誤を機械に任せやすい領域がある。

ここでは、人が理想的な解き方を毎回書く必要はない。モデルに問題を解かせる。答えを出させる。機械で確かめる。合っていれば、その出し方を強める。間違っていれば、強めない。

これを何度も繰り返す。

重要なのは、途中の書き方を人が細かく教え込むのではない、という点である。人が「この問題では、こう考えなさい」と全手順を与えるのではない。モデル自身にいろいろ試させ、正解に届いた試みを拾い上げる。すると、当たりに近づく振る舞いが少しずつ残っていく。

つまり、検証できる答えを採点して強化する。
この単純な構図が、考える力を鍛えるうえで大きな意味を持った。

なぜ効いたのか。理由はかなり地味である。採点を自動化できると、規模を回せるからだ。

人が採点する方式では、人が詰まりどころになる。どれだけ計算機があっても、人間の作業速度を超えて答えを評価することはできない。しかも、難しい問題ほど判断にも注意が要る。

一方で、正誤を機械で確かめられるなら、話が変わる。大量の問題を用意し、大量に解かせ、大量に採点できる。正解したものを強め、外れたものを捨てる。そのサイクルを回しやすくなる。

もちろん、これは魔法ではない。問題の作り方も、採点の仕方も、学習の安定性も難しい。だが、中心にある考えは明快である。人がすべての考え方を注入するのではなく、試行錯誤の場を作る。そこで成功した筋道を、モデルの振る舞いとして残していく。

この変化は、以前の方法を置き換えたわけではない。

土台には、大量のテキストから言葉や知識の分布を学ぶ段階がある。その上に、指示に従うための調整がある。さらに、人にとって自然で好ましい応答に近づける調整がある。そしてその上に、検証できる報酬を使って、難しい問題を解く振る舞いを鍛える層が乗る。

新しい段が、古い段の上に積み重なっている。
「前のやり方は要らなくなった」と読むと、ここを見誤る。

考える力は、空中に単独で生まれるものではない。言葉を扱う力があり、指示を読む力があり、答えとして整える力がある。その上で、検証できる問題を使って、より長く、より慎重に筋道をたどる振る舞いが鍛えられる。

ただし、このやり方にははっきりした境界がある。

強いのは、答えを確かめられる領域である。
数学のように、正解と不正解を分けやすい問題。
コードのように、実行結果で失敗を見つけやすい問題。
こうした領域では、機械採点がそのまま訓練の燃料になる。

一方で、文章の良し悪し、状況に応じた判断、相手との関係を踏まえた応答のような領域では、同じやり方をそのまま使いにくい。何をもって正解とするかが曖昧だからである。

良い文章とは何か。
妥当な判断とは何か。
相手にとって助けになる返答とは何か。

これらは、単純な正誤では測りにくい。機械で採点できないなら、訓練の回し方も変わる。人が基準を作る必要があるし、場合によっては複数の基準が衝突する。

だから、「考える力」は万能ではない。
それは、何を検証できるかに強く縛られている。

この点は、Agentic OS を考えるうえでとても重要になる。

エージェントにとって、考える力はほとんどそのまま計画する力である。大きなタスクを小さく分ける。途中で状態を確かめる。失敗したら戻る。別の手順を試す。最後に結果を確認する。

こうした振る舞いの土台には、今見たような訓練がある。最初から正解を一発で出すのではなく、途中を展開し、検証しながら進む。その癖が、エージェントの行動にも現れる。

そして、もう一つ大事な含意がある。

あるタスクに、成功か失敗かを自動で付けられるなら、そこでエージェントは鍛えやすい。テストが通るか。ファイルが期待どおり生成されたか。予約が完了したか。データが条件を満たしたか。こうした判定ができるなら、試行錯誤を回せる。

逆に、成功の定義が曖昧なタスクでは、先に評価の形を設計しなければならない。何を達成と見なすのか。どの失敗を重く見るのか。どこから人が判断するのか。そこを決めないままでは、エージェントを強くするための信号が作れない。

モデルの考える力は、ただモデル内部の話ではない。
それは、外側にどんな検証環境を用意できるかという設計問題でもある。

ここで、効率の話から能力の話へ軸が移った。前回まで見てきたのは、限られた計算でどれだけうまく読むかだった。今回見たのは、答えに至る振る舞いをどう鍛えるかである。

次回は、同じ能力の話を別の角度から見る。学習が終わったあと、答える時間をどう使うか。つまり、推論の途中でより多く試し、よりよい答えを選ぶ工夫である。

← 一覧へ

Agentic OS 技術スタックを下から読む 第8回：考える力は、どう教えられたか ―― 検証できる答えで鍛える

関連記事

Agentic OS 技術スタックを下から読む第8回：考える力は、どう教えられたか ―― 検証できる答えで鍛える