最先端AIを、技術の中身まで日本語で読み解く。 オープンモデル、AIコーディング、Agent、ロボット、推論基盤の変化を、一次情報から深く追いかける。
FEATURED / モデル・LLM
推論モデルの強化学習(RL)は、ここ1年で「ベンチマークを何点上げたか」を競うフェーズに見える。だがQwenチームが2025年7月末に公開した GSPO(Group Sequenc…
読む →分子設計、配合最適化、性能予測、実験計画を支援する「Organic Polymer Agent」を公開。最初の検証対象はArFフォトレジストで、EUV向けなどへの展開も掲げるが、効果指標や実験検証の詳細はまだ乏しい。https://www.leiphone.com/category/ai/cPAorDy6hbflU7fy.html
Huawei Cloud出身チームの帧跃科技が千万ドル規模のエンジェル資金を調達し、動画生成モデル、コード生成、リアルタイム描画、物理エンジンを統合する企業向け動画生成基盤 Leadde を2026年後半に公開予定。実測性能や顧客事例は未公表で、現時点では構想とチーム力が主な注目点。 https://www.leiphone.com/category/industrynews/sMrvZOXASE7BkXSf.html
Dockerは、依存関係、ビルド、コンテナイメージ、レジストリ、実行環境までを継続的に検証する重要性を整理。SBOM、署名、由来証明、信頼できるベースイメージは、特にAIコーディングエージェントが依存関係やCI設定を高速に変更する時代の標準的なガードレールになりつつある。https://www.docker.com/blog/what-is-software-supply-chain-security/
OpenAIがロボット領域に再び踏み込む背景には、AGI戦略、競争環境、IPO前の成長ストーリーが重なる。Worldsimのような世界シミュレーターへの期待は大きいが、ロボットでデータセンター建設まで担う構想は、現時点ではまだ実現性に疑問が残る。https://www.leiphone.com/category/industrynews/0P8KvQPzWQpU9F40.html
ICRA 2026では、VLA、人型ロボット、器用なロボットハンド、触覚センサー、データ収集基盤まで、中国企業の展開が目立った。大規模モデルを載せるだけでは足りず、現実の接触や誤差に耐える閉ループを作れるかが次の焦点になる。 https://www.leiphone.com/category/robot/FQ8kbFW5Lq956az4.html
ミュンヘン工科大学のJohannes Betz教授らは、実車のフォーミュラカーで時速300km級の自動運転を検証。APEXは一部テストでプロドライバーを上回ったが、価値は勝敗よりも、センサー融合、3D状態推定、相互作用を読む計画制御を極限環境で鍛える点にある。https://www.leiphone.com/category/ai/GnG36DnUXsYO5uOR.html
脅威モデリングから検証、重複排除、レポート、パッチ生成までを工程化。C/C++のメモリ脆弱性を主対象に、サンドボックスと多段階検証を重視する設計が見どころ。https://github.com/anthropics/defending-code-reference-harness
Git差分を読み取り、ファイル選択やルール適用、行番号付きコメント生成を工程化するコードレビュー向けCLI。汎用Agent任せにせず、決定的な処理とAgentの判断を組み合わせて安定性を高める設計が特徴。https://github.com/alibaba/open-code-review
AI Gatewayを使い、Claude CodeなどのクライアントとMistralやローカルLlamaなどのモデルを分離する考え方を解説。ルーティング、予算管理、フォールバック、ログ監視に役立つ一方、`reasoning_effort`のようなAPI互換の細部が実運用の壁になる。https://dev.to/nfrankel/ai-gateways-why-and-how-b5o
Stayzrの構成を例に、Goで高負荷なAPIやWebhookを担い、PythonでAgent/RAGを動かす実装を紹介。PMSとの双方向同期、テナント分離、キューの信頼性など、垂直AIサービスの実務的な技術負債が焦点。 https://dev.to/starkprince/how-i-built-a-hotel-ai-platform-in-go-and-every-honest-technical-debt-were-carrying-4d0m
GitHubのSpec Kitは、要件・設計方針・計画・タスク・実装をつなぐオープンソースの仕様駆動開発ツール。AIコーディングを場当たり的な指示から、追跡可能でチーム運用しやすい工程へ寄せる動きとして注目される。https://github.com/github/spec-kit
last30days-skillは、Reddit、X、YouTube、Hacker News、Polymarket、GitHubなどの直近30日分の動きを横断し、投稿数や反応、コード活動、予測市場のシグナルをもとに要約する研究用Agent Skill。v3では事前のエンティティ調査、横断クラスタリング、HTMLブリーフ、競合比較などが強化され、通常の検索では拾いにくい「人々が最近どこで何を話しているか」を読む道具になっている。https://github.com/mvanhorn/last30days-skill
Copilot CLIの背後にあるAgentワークフローを、PythonやTypeScriptなど複数言語からアプリに組み込めるSDK。BYOK、独自ツール、権限制御にも対応し、コードレビューや移行、テスト修正など特定業務への組み込みが焦点になる。https://github.com/github/copilot-sdk
Hugging Faceは、Hub操作用のhf CLIを人間だけでなくコーディングエージェントにも扱いやすい形に見直した。構造化された低トークン出力や次のコマンド提案により、多段階のHub作業でcurlやSDKより安定しやすいという。 https://huggingface.co/blog/hf-cli-for-agents
Ethan Mollick氏は新著『Co-Existence』で、AIがチャット補助から半自律的なエージェントへ移りつつあると論じる。特に重要なのは、AIが作業を手伝うだけでなく、作品や製品を先に読み、評価し、ユーザーに届ける入口になり始めている点だ。https://www.oneusefulthing.org/p/co-existence-and-the-end-of-co-intelligence
顔認証後の短い動画から心拍や安静時心拍を推定するPHRMを紹介。日常利用や肌色差も検証しており、スマホが低コストな健康センサーになる可能性と、プライバシー面の慎重な扱いが焦点になる。https://research.google/blog/towards-passive-heart-health-monitoring-via-smartphone-camera/
Andon Labsは自販機、店舗、ロボットを使い、AIエージェントを長期運用で検証する。通常のベンチマークでは見えにくい虚偽、談合、返金拒否、ループ的な破綻が、顧客・在庫・お金を伴う環境で表面化する。https://www.latent.space/p/andon
CloudflareがVoidZeroを買収し、ViteやVitest、Rolldown、Oxcのチームが参加する。各プロジェクトはオープンソースと中立性を維持しつつ、AIエージェント時代の開発・テスト・デプロイ導線をCloudflare側に近づける狙いが見える。https://blog.cloudflare.com/voidzero-joins-cloudflare/
Huaweiが、vLLMで使えるKVキャッシュ量子化バックエンド「KVarN」をオープンソース化。Qwen3-32BでKVキャッシュ容量を約4倍にしつつ、FP16並みの精度と同等以上のスループットをうたう。長文コンテキストやAgent推論のコスト削減に効く可能性があるが、第三者検証はこれから。 https://github.com/huawei-csl/KVarN
CloudflareがViteの生みの親であるEvan You氏のVoidZeroを買収し、Viteチームは参加後もオープンソースとして独立運営を続ける。AIコーディング時代には、プロジェクト生成からデプロイまでの標準ルートを握ることがクラウド競争の焦点になりそうだ。 https://my.oschina.net/u/4487475/blog/19695195
Claudeはコード作成や実験支援でAnthropic内の開発を大きく加速している一方、研究方針の決定はまだ人間に依存している。AIがAI開発に深く入る流れは、再帰的自己改善の到来時期と安全管理の重要性を改めて問うている。https://www.anthropic.com/institute/recursive-self-improvement
※ 各ニュースは一次情報源へのリンクです。要約は編集室による日本語ダイジェスト。

懐疑派の最後の言い訳って、だいたい C++ なんですよね。「agent は JavaScript くらいは書けるだろう。でも俺の、まるで原発でも動かしてそうな毛むくじゃらの C++…
今回のAnthropic開発者イベントで見るべきなのは、新モデル名よりもManaged Agentsと計算資源の確保なんですよね。ClaudeがAPIの向こう側にいる賢いモデルでは…
これは、AIコーディングエージェントで原型開発がどう変わったかの現場メモとして読める。単にコード生成が速い話ではなく、エンジニアの仕事が仕様を書く、境界を切る、検収する側に寄ってい…
これ、モデルの新機能の話じゃない。エージェントを十個動かしたときに本当に詰まる場所の話なんですよね。どのagentがどのrepoを触ってる、どのマシンが空いてる、どのモデル枠がまだ…

人型ロボットの動画は、見ていて楽しい。走る。踊る。箱を持つ。たまに転ぶ。それだけで未来っぽい。

ロボットを売った後に賢くする、中国型の学習ループと日本の部品優位を並べて読む。

世界モデルが具身知能の本丸になる理由を、智元 GE 2.0 の事例から整理する。

一人用から多人数へ広がる世界モデルの意味を、NVIDIA×清華の研究から読む。

ここ数日、NVIDIA から立て続けに発表が出ました。Cosmos 3(オープンな物理 AI の基盤モデル)、RTX Spark(1 petaflop の AI PC 用スーパーチ…
AIエージェントを仕事に入れるとき、もう「賢いか」だけでは足りない。 どこに閉じ込められていて、何に触れてよくて、どこから外に出られるのか。 Anthropic が Claude.…

Claude Opus の評価挙動から、モデルが賢くなるほど壊れるベンチマークの問題を見る。

DeepSeek に国家資本が入った意味を、AIと半導体政策の接点から読む。