AIウォッチ / AIコーディング & エージェント
RAGをただのベクトル検索ではなく、「何を見て、どこまで調べてから答えるか」を決める仕組みとして整理する連載第1回です。
この記事は「AIエージェントを工程に入れる」シリーズの第0回です。 Claude Code、Codex、Cursor、Gemini CLI のような coding agent を、…
この記事は「AIエージェントを工程に入れる」シリーズの第1回です。 第0回では、Claude Code / Codex 時代の開発フローを Plan、Work、Review、Com…
この記事は「AIエージェントを工程に入れる」シリーズの第2回です。 第1回では、AIエージェントに渡す仕様書の書き方を扱いました。 今回は、その後に必ず来る問題、つまり「出てきた成…
このシリーズでは、AIエージェントを「コードを書かせる道具」ではなく、開発工程に入る作業者として扱います。
AIエージェントにコードを書かせる話は、だいぶ普通になりました。
AIエージェントは、単体でもかなり動けます。
AIエージェントに仕事を頼むとき、多くの人はすぐ実装を頼みます。
Codex App は、単なる「チャットでコードを書かせる画面」ではありません。
ここまで、AIエージェントを開発工程に入れる方法を分けて書いてきました。
このシリーズでは、AIエージェントを開発工程に入れる方法を書いてきました。
人間が AI を細かく操作するのではなく、まとまった仕事を渡し、進捗を見て、最後に受け取る。道具を使うというより、仕事を委託する関係に近づいている、という話です。
コードを書いた量。チケットを閉じた数。会議に出た時間。資料を作った枚数。そういうものは、これまで仕事をしている証拠になっていました。
AI に仕事を渡す。企業には FDE が必要になる。個人は activity ではなく impact で測られる。
activity ではなく impact で働いてきたエンジニア。

懐疑派の最後の言い訳って、だいたい C++ なんですよね。「agent は JavaScript くらいは書けるだろう。でも俺の、まるで原発でも動かしてそうな毛むくじゃらの C++…
これ、モデルの新機能の話じゃない。エージェントを十個動かしたときに本当に詰まる場所の話なんですよね。どのagentがどのrepoを触ってる、どのマシンが空いてる、どのモデル枠がまだ…
これは、AIコーディングエージェントで原型開発がどう変わったかの現場メモとして読める。単にコード生成が速い話ではなく、エンジニアの仕事が仕様を書く、境界を切る、検収する側に寄ってい…
今回のAnthropic開発者イベントで見るべきなのは、新モデル名よりもManaged Agentsと計算資源の確保なんですよね。ClaudeがAPIの向こう側にいる賢いモデルでは…

SWE-bench と「全テスト通過でのみ報酬」という訓練思想から、修正特化モデルの意味を整理する。

オープンウェイトの巨大MoEが、コーディングでクローズドモデルに並ぶ意味を読む。

MiniMax M2.7 を入口に、中国のオープンなコーディングAIが群れで出てきた構造を見る。

Code Arena の順位と35時間タスクから、中国モデルのコーディング能力を冷静に読む。

企業AIエージェントのデモは簡単です。チャット欄に「先月の売上を地域別に出して」と打つ。モデルがSQLを書く。表とグラフが出る。拍手。

LLM評価という言葉を聞くと、多くのチームはすぐに基盤を作ろうとする。評価基盤。メトリクス。ダッシュボード。自動採点。LLMasajudge。
AIエージェントを仕事に入れるとき、もう「賢いか」だけでは足りない。 どこに閉じ込められていて、何に触れてよくて、どこから外に出られるのか。 Anthropic が Claude.…