OpenAI が MRC スーパコンピュータ ネットワーク プロトコルを公開!NVIDIA、AMD、Microsoft と協力して Stargate の基盤インフラを構築

ChainNewsAbmedia

OpenAI は、新しい AI 超スーパーコンピュータ ネットワーク プロトコル MRC(Multipath Reliable Connection)を発表し、Open Compute Project(OCP)を通じてオープンソースとして公開した。 この技術は OpenAI と AMD、Microsoft、NVIDIA、Intel、Broadcom などの企業が共同で開発しており、超大型 AI 学習クラスタにおける GPU 間のデータ伝送のボトルネックを解消することを目的としている。

AI 学習の本当のボトルネックは、GPU 間でどうやって連携するか

OpenAI は、ChatGPT の毎週の利用者数がすでに 9 億人を超え、AI システムが次第にインフラ級のサービスになりつつあると述べている。 次世代モデルの学習と推論の需要を支えるために、OpenAI は、モデルそのものだけでなく、ネットワーク アーキテクチャも再設計する必要があると考えている。

OpenAI は技術記事の中で、大規模 AI モデルの学習では、1 回の学習ステップに数百万回の GPU 間データ交換が関わる可能性があると指摘している。 そのうちのどれか 1 つでも伝送の遅延が起きれば、学習全体の同期が停止してしまい、多数の GPU が遊休状態になる。

そして AI 超スーパーコンピュータの規模がますます大きくなるにつれ、ネットワークの輻輳、スイッチの故障、遅延のジッター(jitter)などの問題が急速に拡大する。 OpenAI は、これが Stargate 超スーパーコンピュータ計画における最も核心的な技術課題の 1 つだと考えている。

過去のデータセンターでは、ネットワーク アーキテクチャの多くが単一経路伝送(single-path)を採用していた。 しかし MRC の最大の変化は、同じデータを数百本の経路伝送に同時に分散できるようにした点だ。

MRC とは何か? OpenAI:AI ネットワークを自動で障害物回避させる

OpenAI と AMD の説明によれば、MRC の中核となる概念は次のとおり。

データを分割し、同時に複数の経路を通す

マイクロ秒レベルで故障を自動的に回避する

ネットワークの輻輳が引き起こす遅延を抑える

GPU が同期した状態で動き続けられるようにする

AMD は、従来の AI ネットワークは高速道路が 1 車線だけで動いているようなもので、渋滞や事故が起きれば全体の進行に影響するのに対し、MRC はリアルタイムで迂回できる能力を備えたスマート交通システムだと述べた。 AMD はさらに、「AI の規模化における本当のボトルネックは、GPU と CPU ではなくネットワークだ」とまで断言している。

なぜ OpenAI は自らネットワーク プロトコルを設計するのか?

今回 OpenAI が出したシグナルは非常に明確だ。 AI 競争は、もはやモデル同士の競争だけではなく、「スーパーコンピュータのインフラ」一式の競争になっている。 OpenAI は記事の中で、Stargate が登場する前には、彼らがパートナーとともに 3 世代目の AI 超スーパーコンピュータを共同で維持していたと述べている。 こうした経験から OpenAI は結論に至った。 Stargate 規模で算力を効果的に使うには、スタック全体の複雑さを大幅に下げる必要があり、その中にはネットワーク層も含まれる、ということだ。

つまり、将来の Frontier Model の競争は、「誰がより強いモデルを持つか」だけではなく、「数十万、さらには数百万の GPU を同期運用できるように、より効率的に動かせるか」が勝負になる。

MRC の背後には Stargate:OpenAI のマンハッタン計画

MRC の背景には、実際には Stargate LLC がある。 Stargate は OpenAI、SoftBank Group、Oracle Corporation、MGX が推進する大規模な AI 基盤インフラ計画で、当初の目標は、米国に高達 5,000 億ドルの AI 基盤インフラに投資することだった。 OpenAI によれば、現在は当初の 10GW の段階目標をすでに上回っており、直近 90 日で 3GW 以上の AI 基盤インフラ容量が新たに追加されたという。

テキサス州 Abilene にある Stargate 超スーパーコンピュータは、MRC の主要な導入先の 1 つだ。 OpenAI は、MRC が最新の 800Gb/s ネットワーク インターフェースに統合されており、実際の大規模学習クラスタで運用されていると指摘している。

この文章は OpenAI が MRC 超スーパーコンピュータ ネットワーク プロトコルを公開!NVIDIA、AMD、マイクロソフトとともに Stargate 基盤インフラを構築 という内容で、最初に 鏈新聞 ABMedia に掲載された。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

アンソロピックのClaude Dreams:エージェントが作業の合間に自動的に記憶を整理し、重複や矛盾を解消する

Anthropic は Code with Claude の大規模イベントで Dreams を発表し、Claude Managed Agents が複数の会話にわたって自動的に記憶を整理し、重複や矛盾を解消し、古い項目を更新して、監査可能な整理済みの記憶データベースを出力します。入力上限は 100 セッションと 4,096 文字で、非同期で実行され、数分から数十分で完了します。ストリーミングによる観察に対応しています。研究プレビューは申請が必要で、現時点では claude-opus-4-7 と claude-sonnet-4-6 のみ対応し、正式な提供開始時期は未定です。

ChainNewsAbmedia54分前

Anthropic は SpaceX の計算資源を奪う:Colossus 1 を丸ごと 22 万 GPU 確保、Claude は利用制限を解除

Anthropic は SpaceX と Colossus 1 データセンターに関する計算能力の連携で合意したと発表し、22万基超の Nvidia GPU、300MW 以上の容量を投入する予定です。1か月以内にすべてを設置して Anthropic の利用に供し、Claude や Code の演算と体験を向上させます。あわせて、Pro/Max/Team/Enterprise の 5 時間あたりの使用量上限を緩和し、ピーク時の上限を撤廃し、Opus API のレートを引き上げます。アジアおよび欧州の基盤インフラも同時に拡張し、今後は「軌道 AI 計算」などの意向もあるものの、現時点では未契約です。

ChainNewsAbmedia1時間前

コインベースのエンジニア:AIエージェントはウェブ広告のモデルを混乱させ得る

Coinbaseのエンジニアであるエリック・レッペルは、人工知能エージェントがインターネットの広告依存のビジネスモデルを根本的に損なう可能性があると述べました。レッペルによれば、ウェブ経済は人間のユーザーから生み出される広告収益に大きく依存していますが、AIエージェントはその仕組みを迂回します

CryptoFrontier1時間前

アンスロピック、SpaceXの取引で300MWの容量を確保した後、Claudeのコードレート制限を倍増

Odailyによると、AnthropicはSpaceXと提携に署名し、Colossus 1データセンターのコンピューティング能力すべてにアクセスできるようにし、今月中に新たな300メガワット超の稼働能力と、220,000台以上のNVIDIA GPUを確保した。即時に、Claude CodeのPro向けの5時間あたりのレート制限が、

GateNews1時間前

AI採用プラットフォームのEthosが5月6日にa16z主導でシリーズAの資金調達2,275万ドルを完了

BlockBeatsによると、ロンドン拠点のAI採用プラットフォームEthosは5月6日に、Andreessen Horowitz(a16z)が主導しGeneral Catalystが参加した形で、シリーズAラウンド2,275万ドルの資金調達を完了した。同プラットフォームはAIを使って候補者を面接し、分析する。

GateNews3時間前

OpenAI、AMD、Intel、NVIDIAとともにMRCネットワークプロトコルを発表。10万基以上のGPUに対応

5月6日のOpenAIの発表によると、同社はAMD、Broadcom、Intel、Microsoft、そしてNVIDIAと提携して、大規模なAIトレーニング・クラスターのGPU相互接続のためのオープンなネットワーク・プロトコルであるMultipath Reliable Connection(MRC)を立ち上げました。このプロトコルは、単一のデータ伝送を分割します。

GateNews4時間前
コメント
0/400
コメントなし