Agentic OS 技術スタックを下から読む 補講(2):専用の口がないとき、画面を使う ―― 見て、押して、打つ
前回は、外の知識を引く話でした。
Agentic OS 技術スタックを下から読む 補講(2):専用の口がないとき、画面を使う ―― 見て、押して、打つ
補講、二つ目 ―― 専用の口がない世界
前回は、外の知識を引く話でした。
自分の内側だけでは足りないとき、外へ探しに行く。検索して、読んで、必要なところを持ち帰る。補講(1)では、その話をしました。そして最後に、補講は、まだ続く、と書きました。
今回は、その続きです。外の知識ではなく、外のソフトを動かす話です。
エージェントに、何かを操作させたいとします。文章を転記する。表に値を入れる。画面上の項目を選ぶ。送信する前に内容を確かめる。こうした作業は、どれも人間には見慣れたものです。
しかし、多くのソフトには、エージェント専用のきれいな呼び出し口がありません。ここでいう呼び出し口とは、第15回で見た道具呼び出しのように、プログラムから「これをせよ」と頼める入口のことです。たとえば、値を渡せば登録してくれる。名前を渡せば検索してくれる。そういう入口です。
ところが現場には、それが無いソフトが多くあります。あるのは、人間が使うための画面と、キーボードと、マウスだけです。
では、専用の口が無いとき、どうやって動かすのか。
人と同じ入口を使う
答えは、単純です。
人と同じ入口を使います。
画面を見ます。どこに、何があるかを掴みます。マウスをその場所へ動かします。押します。入力欄を見つけます。文字を打ち込みます。必要なら、下へ送ります。別の画面に進みます。
つまり、人間のために作られた画面を、そのまま操作の入口にします。
このやり方の強みは、届く範囲の広さです。専用の口が作られていないソフトでも、人が画面で触れるなら、エージェントも触れます。古いソフトでも、内側だけで使われている仕組みでも、画面があり、押す場所があり、文字を打つ場所があるなら、そこへ入れます。
きれいな呼び出し口は、設計された場所にしかありません。画面は、人間に使わせるために、ほとんどの場所にあります。
だから、画面を使う方法は荒いですが、強いのです。
見る ―― 言葉を位置に結びつける
最初に必要なのは、見ることです。
画面を一枚、写し取ります。そして、その絵の中から、目当てのものを見つけます。送信のボタン。入力欄。閉じる印。次へ進む場所。選ばれている項目。まだ空の欄。
ここで起きているのは、言葉を位置に結びつけることです。
「送信のボタン」という言葉だけでは、マウスは動かせません。画面のどの場所にあるのかを決める必要があります。左上からどれくらい右か。上からどれくらい下か。つまり、座標に落とす必要があります。
第47回で見た、見ることを言葉と同じ場で扱う話が、ここで効きます。見えているものを、ただの絵として置いておくのではありません。「これは入力欄です」「これは押してよいボタンです」「これは警告です」と、言葉で扱える形にします。
見えなければ、押す場所は決まりません。何が書かれているかを読めなければ、押してよいかも決まりません。画面操作の第一歩は、目の前の絵を、操作できる対象として読み直すことです。
押す・打つ ―― 高い意図を低い手に降ろす
見つけたら、操作します。
ただし、ここで使う言葉は低いです。
きれいな呼び出し口があれば、「送信せよ」で済むかもしれません。必要な値を渡せば、向こうが正しい場所に入れ、正しい順番で処理してくれます。
画面では、そうはいきません。
「この座標を押せ」 「ここに文字を打て」 「少し下へ送れ」 「この欄を選べ」
こういう低い手に分解します。
人間なら一息でやっている作業も、エージェントには細かく刻む必要があります。送信する、という一つの意図が、画面を見る、ボタンを探す、そこへ動かす、押す、反応を見る、という列になります。
この分解が必要なのは、画面が意味ではなく、位置と入力で動くからです。画面の部品は、外から見る限り「送信」という目的そのものではありません。ある場所に描かれた文字と枠です。そこを押した結果として、送信が起きるだけです。
だから、画面を使う操作では、高い意図を、座標と打鍵の列へ毎回降ろします。
画面は動く ―― だからもろい
ここに、もろさがあります。
画面は動きます。
読み込みが終わる前と後で、配置がずれることがあります。上に知らせが出て、全体が下へ押されることがあります。割り込みの小窓が、ふいに出ることがあります。確認の画面に切り替わったつもりが、まだ前の画面のままということもあります。
すると、さっき正しかった座標が、次の瞬間には別のものを指します。送信のボタンがあった場所に、取り消しのボタンが来ているかもしれません。入力欄だと思った場所が、ただの説明文になっているかもしれません。
第40回で見た、行番号だけでは脆いという話と同じです。固定された番号や位置だけに頼ると、少しずれただけで壊れます。画面も同じです。
だから、一手ごとに見直します。
押す直前に、もう一度見る。まだそこに同じボタンがあるかを確かめる。文字を打つ前に、その欄が選ばれているかを確かめる。進んだあとに、期待した画面へ移ったかを確かめる。
第46回で見た、各段で確かめるという作法が、そのまま必要になります。前に見たから大丈夫、では足りません。押す前のいま、そこにあるか。押した後のいま、望んだ変化が起きたか。そこを毎回見る必要があります。
重い ―― 毎手、画面を読む
画面を使う方法は、重いです。
理由は単純です。一手ごとに、画面を読むからです。
見て、考えて、押す。また見て、考えて、打つ。また見て、考えて、次へ進む。この繰り返しになります。
第39回で見たように、絵を読むのは高くつきます。文字だけなら、並んだ記号を順に読めば済みます。画面では、文字だけでなく、場所、大きさ、囲み、選ばれている状態、薄くなっている状態、小窓の重なりまで読まなければなりません。
しかも、毎回読みます。一度読んだ画面を信じ続けると、配置のずれや割り込みに負けます。だから、もろさを避けようとすると、重さが増えます。
きれいな呼び出し口なら、一瞬で終わる操作があります。値を渡す。返り値を受け取る。失敗したら失敗理由を受け取る。画面越しでは、それが何手にも分かれます。
速さでも、安さでも、画面は専用の口にかないません。
届く範囲は広い ―― だが軽いところから任せる
それでも、画面を使う意味は大きいです。
届く範囲が、桁違いに広いからです。
専用の口が無い古いソフト。部署の中だけで使われている仕組み。外から呼ぶ入口は無いが、人が毎日画面で触っているもの。そういう場所へも、画面を通せば手が届きます。
ただし、いきなり全部を任せてはいけません。
座標を一つ押し間違えるだけで、消してはいけないものを消すことがあります。送ってはいけないものを送ることがあります。公開してはいけないものを外へ出すことがあります。
第31回と第39回で見た、戻せる操作から始めるという考え方がここで効きます。入口は広く、出口は狭くします。触れる場所は広く見せても、実際に外へ出す操作、消す操作、確定する操作は細く絞ります。
まず任せるのは、低い危険の戻せる流れです。
資料を決まった場所へ分ける。すでにある文字を別の欄へ写す。一覧から必要な項目を探して印をつける。間違っても戻せる作業から始めます。押し間違いが起きても、すぐ取り消せるところで経験を積ませます。
そこで、画面の読み間違い、押し間違い、待ち不足を減らします。それから少しずつ、任せる範囲を広げます。
環境を丸ごと与える ―― そして補講の意味
まとめます。
専用の口が無いとき、エージェントには、人間の入口を渡します。画面と、キーと、マウスです。さらに進めると、画面だけでなく、作業環境を丸ごと渡します。一つの機械、一つの画面、一つの作業場を、そのまま使わせます。
きれいな呼び出し口は、速くて、確かです。しかし、誰かが作った場所にしかありません。
画面は、もろくて、重いです。しかし、人が触れる場所なら、どこにでもあります。
だから、口があれば口を使います。無ければ画面に降ります。
これは、第40回で見た道具の設計の、いちばん荒い側です。きれいな道具が用意されていない世界での、最後の手段です。人間の入口に降りて、人と同じやり方で、見る。押す。打つ。確かめる。
賢いエージェントが、現場のあらゆるソフトへ手を伸ばせるのは、この荒い入口が最後に残されているからです。
補講は、まだ続く。
← 一覧へ