最先端AIを、技術の中身まで日本語で読み解く。 オープンモデル、AIコーディング、Agent、ロボット、推論基盤の変化を、一次情報から深く追いかける。
FEATURED / モデル・LLM
推論モデルの強化学習(RL)は、ここ1年で「ベンチマークを何点上げたか」を競うフェーズに見える。だがQwenチームが2025年7月末に公開した GSPO(Group Sequenc…
読む →BCS 2026で「中国AIエージェント先導者」リストが発表され、安全、業務運用、業界特化、汎用の4分野で政務、金融、エネルギー、製造、医療などの事例が並んだ。注目点は順位よりも、合規、客服、運用監視、契約審査のような低ミス許容・高プロセス密度の現場から導入が進んでいること。https://www.leiphone.com/category/industrynews/VEQzCEDU0APjbVou.html
xAIが中国語AIトレーナーを募集。多言語音声のラベル付けや録音、音声品質改善が中心で、Grokの中国語音声対応を補強する動きと見られる。https://www.oschina.net/news/450900
Newcomerは、6月24日にロンドンで開くCerebral Valley AI Summitに、Index VenturesのDanny Rimer氏やLuminance CEOのEleanor Lightbody氏らが加わると発表した。内容は主に登壇者・討論リーダーの追加告知で、技術や市場分析というより、AI創業者と投資家を集めるネットワーキング色が強い。 https://www.newcomer.co/p/new-to-the-cerebral-valley-ai-summit
アリババが Qwen3.7-Plus を発表。コード生成だけでなく、画面操作やクラウド管理画面での自動運用まで含むデモを示したが、失敗率や検証条件はまだ見えにくい。https://www.aibase.com/zh/news/28541
NVIDIAがCosmos 3、Agent Toolkit、Omniverse、Isaac、Jetsonを組み合わせ、世界モデルからシミュレーション、ロボット訓練、エッジ展開までをつなぐ構想を示した。発表色は強く、技術詳細や第三者検証はまだ不足しているが、物理AI開発の試行コストを下げる基盤として注目される。https://www.infoq.cn/article/Ahsy8EcCLj8ESwbkJxu8?utm_source=rss&utm_medium=article
Mistral AIは、モデル提供にとどまらず、データセンター、企業向けアプリ、業界別カスタマイズまで含む全スタック型のAI供給体制を強めている。データ主権や規制対応を重視する欧州企業に向け、OpenAIとの正面勝負ではなく、導入・運用まで引き受ける企業ソフトウェア寄りの立ち位置を狙う動きだ。 https://www.oschina.net/news/450879
AIエージェントで大規模な顧客インタビューを行い、製品判断に使う「生の声」を継続的に集める試み。鍵は会話AIそのものより、誰に聞くかというサンプル設計にありそうです。https://pscrb.fm/rss/p/traffic.megaphone.fm/CPUAI4652106703.mp3
Rust製のLlamaStashは、llama.cpp向けにTUI、CLI、daemon、OpenAI互換プロキシをまとめた端末ネイティブのランチャー。JSON出力や明確な終了コードも備え、ローカルLLMを人間だけでなくエージェントやIDEから安定して扱うための基盤を狙う。 https://dev.to/deepu105/introducing-llamastash-a-zero-overhead-terminal-native-llamacpp-launcher-4d2g
GoogleのNotebookLMに「自分の声で読み上げる」機能が加われば、AI音声生成だけを売りにするスタートアップは厳しくなる。生き残る鍵は単発の生成ではなく、ユーザーの意図や修正、配信後の反応を次の出力に生かすワークフローにある。 https://dev.to/dannwaneri/google-is-one-feature-away-from-killing-an-entire-startup-category-jk
Docker Blogは、AIエージェントの安全対策として実行環境の隔離、ツール権限、認証情報、監視ログの4層を整理。確認ダイアログだけでは不十分で、使い捨て可能なサンドボックスと限定権限が企業導入の前提になる。 https://www.docker.com/blog/how-to-secure-ai-agents/
ICRA 2026の世界モデル競技を通じて、評価軸が動画のリアルさから、動作制御・物理整合性・意思決定への有用性へ移りつつあることを示す。NeoVerse-Abotはカメラ内外部パラメータの最適化、PAI@IAIIはデータ選別を重視しており、派手なモデル以上に地道なデータ基盤が差を生んでいる。 https://www.leiphone.com/category/robot/IH4SUHF1ihnMy0Ne.html
零一汽車は2025年に売上5.22億元、EVスマート重卡1176台を納入し、固定ルートの中短距離輸送に絞って赤字幅を圧縮した。 ただし純損失とキャッシュ負担は拡大しており、無人重卡事業はまだ小さい。自動運転の商業化は、まず車両・運用・保守の採算を合わせられるかが焦点になる。 https://www.leiphone.com/category/transportation/YWDYr6e3rN64B5IF.html
Zvi氏は、Claude Opus 4.8を現時点で最有力級のモデルと評価。コーディング、文章作成、誠実性、ワークフロー面で改善がある一方、過度な慎重さや自己修正の増加も指摘している。dynamic workflowsや思考強度の調整は、モデルを単なるチャットではなく作業システムとして使う上で重要な進化。https://thezvi.substack.com/p/claude-opus-48-capabilities-and-reactions
Googleを広告企業ではなく、検索広告の潤沢な現金をAIクラウド、TPU、データセンターへ投じる資本集約型企業として捉え直す論考。AI競争の焦点は、モデル性能だけでなく、どれだけ継続的に資金と計算資源を動員できるかに移りつつある。https://stratechery.com/2026/the-google-capital-company/
Microsoftが、GitHub CopilotとVS Code向けの自社製軽量モデル「MAI-Code-1-Flash」を発表。公開ベンチマークだけでなく実際のCopilot環境での効率を重視し、トークン消費を抑えながら日常的なコーディング支援を担うモデルとして位置づけている。 https://microsoft.ai/news/introducingmai-code-1-flash/
NVIDIAは台北GTCで、Vera Rubinの本格量産とAgent向けVera CPUを発表。GPU単体ではなく、CPU、メモリ、ネットワーク、運用まで含む「AI Factory」企業としての立ち位置を強めている。 https://www.infoq.cn/article/1xVhPAd4se8w1r88AaJC?utm_source=rss&utm_medium=article
Anthropicの機械的解釈可能性研究をもとに、LLM内部の概念連鎖や推論経路を追跡できる可能性を紹介。モデル自身の説明と実際の計算過程は一致しない場合があり、Agent監査や企業向けモデル統制の重要な基盤になりそうだ。 https://www.jay.ai/blog/llms-are-not-a-black-box
Kapaは技術文書向けRAGで、画像を検索のたびにマルチモーダルモデルへ渡すのではなく、索引時に視覚モデルで説明文へ変換する手法を紹介。コストと遅延を抑えつつ、既存のテキストRAG基盤に画像情報を載せられる点が実用的。https://www.kapa.ai/blog/how-we-index-images-for-rag
AnthropicはProject Glasswingを拡大し、Claude Mythos Previewを約150の安全保障パートナーに提供する。焦点は脆弱性の発見から、検証、開示、修正、パッチ適用の実務へ移りつつある。https://www.anthropic.com/news/expanding-project-glasswing
DeepSeek-V4-FlashをAMD MI300X上で動かす際のFP8形式、AITERカーネル、HIP graphs、MoEルーティングの課題を整理。単一GPUの出力は2485から2699 tok/sに改善し、非NVIDIA GPUの推論コスト最適化余地を示した。 https://fergusfinn.com/blog/deepseek-v4-flash-mi300x/
Google Managed Agents APIは、Agentに必要なサンドボックス、ファイル保存、検索、URL抽出、複数ターンの状態管理を托管する仕組み。Pre-GA段階でSLAはなく、本番の機密用途よりも試作や内部ツール向け。https://dev.to/gde/geminiagent-google-managed-agents-api-4e43
労働経済学者Kathryn Anne Edwardsは、AIによる大量失業論は誇張されがちだが、米国の失業保険や医療、住宅、労働者の交渉力は脆弱だと指摘する。短期的な焦点は一夜の大量解雇より、AIで既存チームの生産性を上げることで新卒・入門職の採用が静かに減るリスクにある。https://www.platformer.news/an-economists-case-against-the-ai-jobs-pocalypse/
※ 各ニュースは一次情報源へのリンクです。要約は編集室による日本語ダイジェスト。

懐疑派の最後の言い訳って、だいたい C++ なんですよね。「agent は JavaScript くらいは書けるだろう。でも俺の、まるで原発でも動かしてそうな毛むくじゃらの C++…
今回のAnthropic開発者イベントで見るべきなのは、新モデル名よりもManaged Agentsと計算資源の確保なんですよね。ClaudeがAPIの向こう側にいる賢いモデルでは…
これは、AIコーディングエージェントで原型開発がどう変わったかの現場メモとして読める。単にコード生成が速い話ではなく、エンジニアの仕事が仕様を書く、境界を切る、検収する側に寄ってい…
これ、モデルの新機能の話じゃない。エージェントを十個動かしたときに本当に詰まる場所の話なんですよね。どのagentがどのrepoを触ってる、どのマシンが空いてる、どのモデル枠がまだ…

人型ロボットの動画は、見ていて楽しい。走る。踊る。箱を持つ。たまに転ぶ。それだけで未来っぽい。

ロボットを売った後に賢くする、中国型の学習ループと日本の部品優位を並べて読む。

世界モデルが具身知能の本丸になる理由を、智元 GE 2.0 の事例から整理する。

一人用から多人数へ広がる世界モデルの意味を、NVIDIA×清華の研究から読む。

ここ数日、NVIDIA から立て続けに発表が出ました。Cosmos 3(オープンな物理 AI の基盤モデル)、RTX Spark(1 petaflop の AI PC 用スーパーチ…
AIエージェントを仕事に入れるとき、もう「賢いか」だけでは足りない。 どこに閉じ込められていて、何に触れてよくて、どこから外に出られるのか。 Anthropic が Claude.…

Claude Opus の評価挙動から、モデルが賢くなるほど壊れるベンチマークの問題を見る。

DeepSeek に国家資本が入った意味を、AIと半導体政策の接点から読む。