チップ大手のNVIDIA（輝達）は本日（4日）、新しいオープンソースのフラッグシップモデル「Nemotron 3 Ultra」を発表しました。このモデルは長時間稼働するAIエージェント（AI Agents）や複雑なマルチエージェントワークフローに特化しており、総パラメータは5,500億に達します。ハイブリッドアーキテクチャと複数の技術革新を導入することで、Nemotron 3 Ultraは複数のベンチマークで優れた性能を示すだけでなく、最大5倍のスループット向上を実現し、エージェントタスクのコストを30％削減します。
（前提情報：NvidiaがKumo AIを40億ドルで買収！「企業予測モデル」のパズルを補完し、フルスタックAI大手への転換を加速）
（背景補足：Nvidiaが中国の新創企業宇樹科技（Unitree）と提携！黄仁勳は「ヒューマノイドロボットAIプラットフォーム」を推進し、兆ドル規模の実体AI市場を攻める）

この記事の目次

Toggle

550億のアクティブパラメータ、AIワークフローの「脳」へと変身
五大技術革新：スループット5倍増、コスト30％削減
完全オープンソース化、企業向けAI応用の加速

人工知能（AI）が高度な自動化と複雑なワークフローに向かう中、「マルチエージェントシステム（Multi-agent systems）」の計算コストと効率のボトルネックは、各企業がAI導入時に直面する最大の課題となっています。この問題を解決するため、NVIDIAは2026年6月4日に、Nemotron 3シリーズのフラッグシップ製品——Nemotron 3 Ultraを正式に発表しました。

これは、「長時間稼働するAIエージェント」向けに設計された強力なオープンソースモデルです。従来のマルチエージェントワークフローでは、継続的な計画、ツール呼び出し、サブエージェントの委任、長大なコンテキストの維持などにより、トークン（Token）の消費量が爆発的に増加し、高コストや目標逸脱のリスクを引き起こします。Nemotron 3 Ultraは、これらの課題を克服するために生まれました。

550億のアクティブパラメータ、AIワークフローの「脳」へと変身

Nemotron 3 Ultraは、Mixture-of-Experts（MoE）アーキテクチャを採用し、総パラメータは5,500億に達しますが、実行時には550億のアクティブパラメータのみを起動し、極限の運用効率を確保しています。マルチエージェントワークフローにおいて、このモデルは「オーケストレーター（Orchestrator）」や最先端の推論エンジンとして位置付けられ、深層計画、複雑な総合分析、論理検証などの高負荷タスクを処理し、ルーチンの実行やツール呼び出しは軽量モデルに任せています。

性能面では、Nemotron 3 UltraはAIエージェントに特化した複数のベンチマークテストで輝かしい成果を上げています。例えば、エージェント生産性（PinchBench）では91％の高得点を獲得し、長期ビジョンプランニング（EnterpriseOps-Gym）やコード生成（Terminal-Bench 2.0）でもそれぞれ40％と67％の優れた結果を出しています。起動時のアクティブパラメータは少ないものの、推論能力は市場の主流オープンソースモデルであるGLM 5.1、Kimi K2.6、Qwen3.5を超えるか同等です。

五大技術革新：スループット5倍増、コスト30％削減

これほどの高性能と高速化を実現するため、NVIDIAはNemotron 3 Ultraに五つのコア技術革新を導入しました。まず、「ハイブリッドMamba-Transformer層」は、Mambaの長大シーケンス処理効率とTransformerの高精度事実呼び出し能力を巧みに融合しています。次に、「NVFP4量子化」をサポートし、単一モデルの重みをHopper、Blackwell、AmpereアーキテクチャのGPUにシームレスに展開可能にしました。従来のBF16フォーマットと比較して、Blackwell上では最大5倍のスループット（出力速度）向上を実現します。

さらに、LatentMoE（複雑なワークロード向けの高効率エキスパートルーティング）、複数トークン予測（MTP、一度の前方伝播で複数の未来トークンを予測し長文生成速度を向上）、多教師オンライン蒸留（MOPD）などの最先端技術も統合しています。これらの革新により、タスク処理時の総トークン消費量が大幅に削減され、企業のエージェントタスクコストも最大30％低減されました。

完全オープンソース化、企業向けAI応用の加速

訓練データについては、Nemotron 3 Ultraは10兆以上のトークンを用いた大規模事前学習を基盤とし、さらに2,120億を超える特定領域のトークンデータ（法律文書、ウィキペディア風テキスト、最新のGitHubコードなど）を追加しています。NVIDIAは、このモデルが完全にオープンソースであり、柔軟なOpenMDW-1.1ライセンスを採用し、コミュニティに対してモデルの重み、訓練レシピ、データパイプラインを公開していると強調しています。

現在、開発者はHugging Face、NVIDIA Build、NIMなどの主要プラットフォームでNemotron 3 Ultraを入手・展開可能です。その卓越した長文処理能力（Ruler @1Mテストで95％達成）と高いコストパフォーマンスにより、このモデルは企業のカスタマーサポート自動化、サプライチェーン管理、ITセキュリティ、チップ設計検証などの複雑な実務応用において、絶好のツールとなることが期待されています。