最先端AIを、技術の中身まで日本語で読み解く。 オープンモデル、AIコーディング、Agent、ロボット、推論基盤の変化を、一次情報から深く追いかける。
FEATURED / モデル・LLM
推論モデルの強化学習(RL)は、ここ1年で「ベンチマークを何点上げたか」を競うフェーズに見える。だがQwenチームが2025年7月末に公開した GSPO(Group Sequenc…
読む →OpenAIのCodexがWindows環境での開発タスク実行に対応し、ChatGPTモバイルアプリからリモートで開始・確認できるようになった。モデル刷新というより、実際の開発環境でテスト、デバッグ、コードレビューまで扱うための対応範囲拡大と見られる。https://www.infoq.cn/article/RcDBAl3VhkNDQvPevPrd?utm_source=rss&utm_medium=article
デバイスの状態JSON、設定マッピング、表示UIを分離し、固有のファームウェア改修に頼らず画面を差し替える提案。IoTや工業機器の簡易HMIには有用そうだが、実運用には認証、権限、安全設計が課題。 https://dev.to/edmundsparrow/gnoke-skins-every-device-already-has-a-face-it-just-hasnt-rendered-yet-1n2b
Lazarusは、更新が止まったGitHubリポジトリを分析し、再開計画やGitHub Copilot向けの指示を生成するフロントエンドアプリ。AIに丸投げするのではなく、古いコードの文脈を取り戻し、最初の一歩を決める支援に焦点を当てている。https://dev.to/chintanonweb/i-had-a-folder-full-of-dead-repos-so-i-built-a-graveyard-and-a-way-to-raise-them-383l
MicrosoftはBuild 2026でProject Solaraを発表。従来型アプリを前提にせず、Agentがその場でUIを生成するBadgeやDeskを示し、企業向け管理・認証・Copilot連携まで含めた新しい端末基盤を狙う。https://www.oschina.net/news/451516
VSCodeのWebviewとJupyter Notebook連携にあった脆弱性を安全研究者が公表。悪意あるNotebookや拡張機能を経由してGitHub Tokenが盗まれる恐れがあり、VSCodeは修正済み。開発者は最新版への更新と拡張機能の信頼設定を確認したい。https://www.oschina.net/news/451353/github-token-stealing
GitLabは従業員の約14%を削減し、22カ国・地域から撤退する一方、AIエージェント時代のコード管理基盤やAPI整備に投資を振り向ける。売上は伸びているが、開発プラットフォームの負荷が人間中心の設計を超え始めたことを示す動き。https://www.oschina.net/news/451937
Y Combinatorは、保険・法律・税務などの人手依存の業務をAI前提で再設計する「AIネイティブサービス企業」の可能性を議論。鍵は市場選び、品質のばらつき管理、価格設計と利益構造にある。https://podcasters.spotify.com/pod/show/ycombinator/episodes/How-to-Build-an-AI-Native-Services-Company-e3k8dj5
edge-context-modeは、Claude Codeのコマンド出力をCloudflare D1に保存し、要約と参照だけを文脈に渡すMCPツール。長時間のAgent開発で重要になる「作業記憶」の設計と、未完成ツールに潜む偽成功やデータ消失の落とし穴が見える。https://dev.to/dannwaneri/i-built-a-tool-to-stop-claude-from-forgetting-everything-then-forgot-about-it-myself-2e7f
Webサイト向けの簡単なテキスト分類機能に数百MB級の依存関係が必要になる問題を受け、軽量なWASM推論ランタイム「wasmicro」が作られた。ブラウザ上で小型Transformerの前向き推論に絞ることで、94KB規模の実行環境を目指すプロジェクト。小さなAI機能では、モデル性能だけでなく、初回読み込み、遅延、プライバシー、統合コストも設計の中心になる。https://dev.to/xzdes/i-was-asked-to-add-a-simple-classifier-to-a-website-then-i-saw-the-250-mb-download-1id
OpenClaw、Deepgram、Murf Falcon、Swiggyを組み合わせた音声注文エージェントの開発記録。流式出力、TTS、MCP連携、遅延対策など、音声エージェントを実用的な対話体験に近づけるための設計が焦点。https://dev.to/sanchita_sunil/i-gave-openclaw-a-voice-and-it-ordered-me-dinner-40og
Headroomは、ツール出力やログ、RAG断片、ファイルをLLM投入前に圧縮するローカル優先の開発者向けツール。MCPやCLIラッパーなどで接続でき、コスト削減だけでなく、失敗セッションの学習や複数エージェント間の記憶共有も狙う。https://github.com/chopratejas/headroom
Nous ResearchのHermes Agentは、長期記憶、スキル生成、複数モデル対応、クラウド実行、定期タスクをまとめたオープンソースAgent。チャットツールから常駐する個人向け自動化基盤へ進む方向性は興味深いが、実運用での安定性や失敗例はまだ要検証。https://github.com/NousResearch/hermes-agent
得物はログ、監視指標、分散トレースをLLM Agentのツールとして接続し、告警調査を自動化した。ReAct、検収用Agent、ルール検証、ログ記録で品質を管理し、本番導入後の中央値は約20分から4.4分に短縮された。https://my.oschina.net/u/5783135/blog/19694184
MicrosoftはBuildで、推論モデルMAI-Thinking-1を含むMAIモデル群、GitHub CopilotやFoundry、Web IQ、Windows上のローカルAI実行環境をまとめて提示した。OpenAIの提携先やクラウド基盤にとどまらず、自社モデル、開発者入口、端末側ランタイムまで押さえる戦略が鮮明になっている。https://news.smol.ai/issues/26-06-02-msft-mai-2/
ウォール街でAI導入人材の報酬が高騰している背景には、データ、権限、業務フロー、ROI設計をつなげられる人材の不足がある。AI企業もAPI販売だけでなく、FDEのような実装部隊を顧客現場に送り込む方向へ動き始めている。https://www.leiphone.com/category/industrynews/CWwpUPhxV4XiT1WK.html
NvidiaのAI PC構想よりも、クラウド上のエージェントを中枢にして複数デバイスを入口にするMicrosoftのProject Solaraに注目すべきだ、という論考。MAIモデルや企業向けカスタム訓練も、OpenAIやAnthropicへの依存を下げる現実的な布石として位置づけられている。 https://stratechery.com/2026/the-nvidia-ai-pc-project-solara-microsoft-ai/
蘇度科技が双腕ロボットを初公開し、実機データを使わずシミュレーション訓練から未知物体の把持を狙うSim2Real路線を示した。展示デモの成功率は慎重に見る必要があるが、ロボット学習の主戦場が実世界データ収集から高精度な仮想環境づくりへ移る可能性を示す動きだ。 https://www.leiphone.com/category/robot/YZ4WenhvXsr0SVB6.html
Axiom Mathは、Leanのような形式証明システムを使い、AIの出力に機械で検証可能なフィードバックを与える路線を示している。数学だけでなく、コード、科学実験、ハードウェア検証にも広がる可能性がある一方、公開ベンチマークはまだ限られる。 https://www.latent.space/p/axiom
トランプ大統領が、前線AIモデルの公開前に政府が最大30日間アクセスしてテストできる行政令に署名した。Zviは、期間短縮後も実質的には公開前審査に近く、NSA主導や基準の非公開化が今後のモデル供給リズムを左右すると見ている。https://thezvi.substack.com/p/trump-signs-executive-order-for-ai
Satya Nadella氏は、MicrosoftのAI戦略を単一モデルではなく、企業のデータ、評価、権限、業務文脈を組み合わせるエコシステムとして説明した。SaaSは消えず、Agent時代に向けて分解・再構成されていく。https://www.latent.space/p/satya-2026
Kelsey Hightowerが、Google Distinguished Engineerまでの歩みとKubernetesが広がった理由を振り返る。Dockerが作った合意を土台に、宣言的なデータモデルと拡張性で勝ったという見方が軸。生成AIは人の代替ではなく、境界のある道具として使うべきだと語る。https://newsletter.pragmaticengineer.com/p/kubernetes-and-retiring-at-the-top
※ 各ニュースは一次情報源へのリンクです。要約は編集室による日本語ダイジェスト。

懐疑派の最後の言い訳って、だいたい C++ なんですよね。「agent は JavaScript くらいは書けるだろう。でも俺の、まるで原発でも動かしてそうな毛むくじゃらの C++…
今回のAnthropic開発者イベントで見るべきなのは、新モデル名よりもManaged Agentsと計算資源の確保なんですよね。ClaudeがAPIの向こう側にいる賢いモデルでは…
これは、AIコーディングエージェントで原型開発がどう変わったかの現場メモとして読める。単にコード生成が速い話ではなく、エンジニアの仕事が仕様を書く、境界を切る、検収する側に寄ってい…
これ、モデルの新機能の話じゃない。エージェントを十個動かしたときに本当に詰まる場所の話なんですよね。どのagentがどのrepoを触ってる、どのマシンが空いてる、どのモデル枠がまだ…

人型ロボットの動画は、見ていて楽しい。走る。踊る。箱を持つ。たまに転ぶ。それだけで未来っぽい。

ロボットを売った後に賢くする、中国型の学習ループと日本の部品優位を並べて読む。

世界モデルが具身知能の本丸になる理由を、智元 GE 2.0 の事例から整理する。

一人用から多人数へ広がる世界モデルの意味を、NVIDIA×清華の研究から読む。

ここ数日、NVIDIA から立て続けに発表が出ました。Cosmos 3(オープンな物理 AI の基盤モデル)、RTX Spark(1 petaflop の AI PC 用スーパーチ…
AIエージェントを仕事に入れるとき、もう「賢いか」だけでは足りない。 どこに閉じ込められていて、何に触れてよくて、どこから外に出られるのか。 Anthropic が Claude.…

Claude Opus の評価挙動から、モデルが賢くなるほど壊れるベンチマークの問題を見る。

DeepSeek に国家資本が入った意味を、AIと半導体政策の接点から読む。