AIウォッチ

AIウォッチhttps://aiwatch-jp.pages.dev/最先端AIの研究・プロダクト・開発現場を、一次情報から読み解くAIウォッチ。jaRAG は「検索して答える仕組み」ではない第1回：RAG の全体像https://aiwatch-jp.pages.dev/rag-overview-01.htmlhttps://aiwatch-jp.pages.dev/rag-overview-01.htmlRAGをただのベクトル検索ではなく、「何を見て、どこまで調べてから答えるか」を決める仕組みとして整理する連載第1回です。Wed, 17 Jun 2026 00:00:00 -0000Claude Code / Codex時代の開発フロー──Plan、Work、Review、CompoundでAIを工程に入れるhttps://aiwatch-jp.pages.dev/agent-flow-plan-work-review-compound.htmlhttps://aiwatch-jp.pages.dev/agent-flow-plan-work-review-compound.htmlこの記事は「AIエージェントを工程に入れる」シリーズの第0回です。 Claude Code、Codex、Cursor、Gemini CLI のような coding agent を、…Fri, 12 Jun 2026 00:00:00 -0000AIエージェントに渡す仕様書の書き方──巨大な依頼を壊さず小さく渡すhttps://aiwatch-jp.pages.dev/agent-flow-spec-writing.htmlhttps://aiwatch-jp.pages.dev/agent-flow-spec-writing.htmlこの記事は「AIエージェントを工程に入れる」シリーズの第1回です。第0回では、Claude Code / Codex 時代の開発フローを Plan、Work、Review、Com…Fri, 12 Jun 2026 00:00:00 -0000AIエージェントの仕事をどう検品するか──Trace、Eval、Pre-CI Reviewの考え方https://aiwatch-jp.pages.dev/agent-flow-review-evals.htmlhttps://aiwatch-jp.pages.dev/agent-flow-review-evals.htmlこの記事は「AIエージェントを工程に入れる」シリーズの第2回です。第1回では、AIエージェントに渡す仕様書の書き方を扱いました。今回は、その後に必ず来る問題、つまり「出てきた成…Fri, 12 Jun 2026 00:00:00 -0000一度の失敗を次の成功に変える──AGENTS.md、Memory、Skillの使い分けhttps://aiwatch-jp.pages.dev/agent-flow-memory-compound.htmlhttps://aiwatch-jp.pages.dev/agent-flow-memory-compound.htmlこのシリーズでは、AIエージェントを「コードを書かせる道具」ではなく、開発工程に入る作業者として扱います。Fri, 12 Jun 2026 00:00:00 -0000AIエージェントに実行させる前に──Sandbox、権限、ファイル境界の考え方https://aiwatch-jp.pages.dev/agent-flow-sandbox-permissions.htmlhttps://aiwatch-jp.pages.dev/agent-flow-sandbox-permissions.htmlAIエージェントにコードを書かせる話は、だいぶ普通になりました。Fri, 12 Jun 2026 00:00:00 -0000MCPとToolsをどう考えるか──read-only、write、権限スコープを分けるhttps://aiwatch-jp.pages.dev/agent-flow-mcp-tools.htmlhttps://aiwatch-jp.pages.dev/agent-flow-mcp-tools.htmlAIエージェントは、単体でもかなり動けます。Fri, 12 Jun 2026 00:00:00 -0000既存リポジトリ調査で使う──実装前に読ませる、再現させる、止めるhttps://aiwatch-jp.pages.dev/agent-flow-repo-investigation.htmlhttps://aiwatch-jp.pages.dev/agent-flow-repo-investigation.htmlAIエージェントに仕事を頼むとき、多くの人はすぐ実装を頼みます。Fri, 12 Jun 2026 00:00:00 -0000Codex Appを技術作業台にする──画面、ファイル、thread、reviewの使い方https://aiwatch-jp.pages.dev/agent-flow-codex-app-workbench.htmlhttps://aiwatch-jp.pages.dev/agent-flow-codex-app-workbench.htmlCodex App は、単なる「チャットでコードを書かせる画面」ではありません。Fri, 12 Jun 2026 00:00:00 -0000実戦テンプレート集──Plan、Work、Review、Compoundをそのまま貼って使うhttps://aiwatch-jp.pages.dev/agent-flow-templates.htmlhttps://aiwatch-jp.pages.dev/agent-flow-templates.htmlここまで、AIエージェントを開発工程に入れる方法を分けて書いてきました。Fri, 12 Jun 2026 00:00:00 -0000AIエージェント導入の判断基準──任せていい仕事、まだ任せない仕事https://aiwatch-jp.pages.dev/agent-flow-adoption.htmlhttps://aiwatch-jp.pages.dev/agent-flow-adoption.htmlこのシリーズでは、AIエージェントを開発工程に入れる方法を書いてきました。Fri, 12 Jun 2026 00:00:00 -0000操作者から委託者へ――Claude Fable 5 が見せた「任せる仕事」の始まりhttps://aiwatch-jp.pages.dev/fable-delegation-era.htmlhttps://aiwatch-jp.pages.dev/fable-delegation-era.htmlAI にどこからでも仕事を頼めるようにした。お風呂でも、移動中でも、スマホから進捗を見られる。思いついたら依頼できる。終わったらその場で確認できる。ゴールだけ書けば、調査から実装まで進む。Fri, 12 Jun 2026 00:00:00 -0000委託時代②：FDE――委託時代が生んだ最初の新しい職種https://aiwatch-jp.pages.dev/delegation-02-fde.htmlhttps://aiwatch-jp.pages.dev/delegation-02-fde.html人間が AI を細かく操作するのではなく、まとまった仕事を渡し、進捗を見て、最後に受け取る。道具を使うというより、仕事を委託する関係に近づいている、という話です。Fri, 12 Jun 2026 00:00:00 -0000委託時代③：Impact vs Activity――委託時代の職業方法論https://aiwatch-jp.pages.dev/delegation-03-hightower.htmlhttps://aiwatch-jp.pages.dev/delegation-03-hightower.htmlコードを書いた量。チケットを閉じた数。会議に出た時間。資料を作った枚数。そういうものは、これまで仕事をしている証拠になっていました。Fri, 12 Jun 2026 00:00:00 -0000委託時代④：AI に渡してはいけないもの――Tony Fadell の cognitive surrenderhttps://aiwatch-jp.pages.dev/delegation-04-fadell.htmlhttps://aiwatch-jp.pages.dev/delegation-04-fadell.htmlAI に仕事を渡す。企業には FDE が必要になる。個人は activity ではなく impact で測られる。Fri, 12 Jun 2026 00:00:00 -0000委託時代⑤：Messy Middle――委託時代の社会の請求書https://aiwatch-jp.pages.dev/delegation-05-kinder.htmlhttps://aiwatch-jp.pages.dev/delegation-05-kinder.htmlactivity ではなく impact で働いてきたエンジニア。Fri, 12 Jun 2026 00:00:00 -0000AI は平気でウソをつく。なのに ClickHouse は、それで百万行の C++ を回している ―― 1年の運用記から見えた、たった一つのカラクリhttps://aiwatch-jp.pages.dev/clickhouse-agentic-coding.htmlhttps://aiwatch-jp.pages.dev/clickhouse-agentic-coding.html懐疑派の最後の言い訳って、だいたい C++ なんですよね。「agent は JavaScript くらいは書けるだろう。でも俺の、まるで原発でも動かしてそうな毛むくじゃらの C++…Mon, 01 Jun 2026 00:00:00 -0000物理AIの初戦場は、人型ロボットではなく工場だhttps://aiwatch-jp.pages.dev/physical-ai-factory.htmlhttps://aiwatch-jp.pages.dev/physical-ai-factory.html人型ロボットの動画は、見ていて楽しい。走る。踊る。箱を持つ。たまに転ぶ。それだけで未来っぽい。Mon, 01 Jun 2026 00:00:00 -0000VAEを捨てた画像モデルは、何を取り戻そうとしているのかhttps://aiwatch-jp.pages.dev/sensenova-u1.htmlhttps://aiwatch-jp.pages.dev/sensenova-u1.html画像生成モデルの話は、すぐに絵のうまさに流れる。肌がきれい。文字が読める。構図が安定した。ベンチで勝った。Mon, 01 Jun 2026 00:00:00 -0000注意力の進化は、KVキャッシュをどこまで削れるかの歴史だhttps://aiwatch-jp.pages.dev/attention-variants.htmlhttps://aiwatch-jp.pages.dev/attention-variants.htmlLLMの注意力まわりは、名前だけ追うとすぐ迷子になる。MHA、MQA、GQA、MLA、SWA、DSA。略語が増え、図も増え、結局どれが何をしているのか分からなくなる。Mon, 01 Jun 2026 00:00:00 -0000LLM推論はモデルではなく、待ち行列と記憶のシステム工学だhttps://aiwatch-jp.pages.dev/tiny-vllm-inference.htmlhttps://aiwatch-jp.pages.dev/tiny-vllm-inference.htmlLLMを動かす、と聞くと、多くの人はモデルファイルを思い浮かべる。重みを落とす。GPUに載せる。プロンプトを入れる。答えが返る。Mon, 01 Jun 2026 00:00:00 -0000企業AIエージェントは、まずデータ基盤を片づけないと働けないhttps://aiwatch-jp.pages.dev/cloudflare-data-agent.htmlhttps://aiwatch-jp.pages.dev/cloudflare-data-agent.html企業AIエージェントのデモは簡単です。チャット欄に「先月の売上を地域別に出して」と打つ。モデルがSQLを書く。表とグラフが出る。拍手。Mon, 01 Jun 2026 00:00:00 -0000LLM評価の本質は、ダッシュボードではなく失敗を読むことだhttps://aiwatch-jp.pages.dev/llm-evals.htmlhttps://aiwatch-jp.pages.dev/llm-evals.htmlLLM評価という言葉を聞くと、多くのチームはすぐに基盤を作ろうとする。評価基盤。メトリクス。ダッシュボード。自動採点。LLMasajudge。Mon, 01 Jun 2026 00:00:00 -0000「AI を机の上へ」の裏で、NVIDIA は推論の両端を取りに来てる ―― Cosmos 3・RTX Spark・Vera Rubin を並べて読むhttps://aiwatch-jp.pages.dev/nvidia-inference-both-ends.htmlhttps://aiwatch-jp.pages.dev/nvidia-inference-both-ends.htmlここ数日、NVIDIA から立て続けに発表が出ました。Cosmos 3（オープンな物理 AI の基盤モデル）、RTX Spark（1 petaflop の AI PC 用スーパーチ…Mon, 01 Jun 2026 00:00:00 -0000How we contain Claude across productshttps://aiwatch-jp.pages.dev/studio-3036-card.htmlhttps://aiwatch-jp.pages.dev/studio-3036-card.htmlAIエージェントを仕事に入れるとき、もう「賢いか」だけでは足りない。どこに閉じ込められていて、何に触れてよくて、どこから外に出られるのか。 Anthropic が Claude.…Sun, 31 May 2026 00:00:00 -0000How I Use Hermes Agent to Run an Agent Teamhttps://aiwatch-jp.pages.dev/studio-3075-card.htmlhttps://aiwatch-jp.pages.dev/studio-3075-card.htmlこれ、モデルの新機能の話じゃない。エージェントを十個動かしたときに本当に詰まる場所の話なんですよね。どのagentがどのrepoを触ってる、どのマシンが空いてる、どのモデル枠がまだ…Sun, 31 May 2026 00:00:00 -0000AI時代の原型開発は、コードを書く速さより仕事の切り方が効くhttps://aiwatch-jp.pages.dev/studio-3189-card.htmlhttps://aiwatch-jp.pages.dev/studio-3189-card.htmlこれは、AIコーディングエージェントで原型開発がどう変わったかの現場メモとして読める。単にコード生成が速い話ではなく、エンジニアの仕事が仕様を書く、境界を切る、検収する側に寄ってい…Mon, 01 Jun 2026 00:00:00 -0000Claudeは「呼び出すモデル」から「働かせる基盤」へ進んでいるhttps://aiwatch-jp.pages.dev/studio-3152-card.htmlhttps://aiwatch-jp.pages.dev/studio-3152-card.html今回のAnthropic開発者イベントで見るべきなのは、新モデル名よりもManaged Agentsと計算資源の確保なんですよね。ClaudeがAPIの向こう側にいる賢いモデルでは…Mon, 01 Jun 2026 00:00:00 -0000GRPOはなぜ長時間学習で崩壊するのか――Qwenが出した「系列単位」の答え、GSPOhttps://aiwatch-jp.pages.dev/studio-3164-deep.htmlhttps://aiwatch-jp.pages.dev/studio-3164-deep.html推論モデルの強化学習（RL）は、ここ1年で「ベンチマークを何点上げたか」を競うフェーズに見える。だがQwenチームが2025年7月末に公開した GSPO（Group Sequenc…Mon, 01 Jun 2026 00:00:00 -0000中国の「自前のチップ」で、1.6兆パラメータのモデルを鍛え直した話https://aiwatch-jp.pages.dev/ascend-deepseek-v4.htmlhttps://aiwatch-jp.pages.dev/ascend-deepseek-v4.html国産チップで巨大モデルの後訓練を安定して回す、地味だが重いインフラの進展。Sat, 30 May 2026 00:00:00 -0000