OpenAI、GPT-Realtime-2 を発表：GPT-5 の推論を音声エージェントに取り込み、context を 128K に引き上げ

ChainNewsAbmedia

2026-05-08 04:04:44

OpenAI は 5 月 7 日（米国時間）に開発者カンファレンスで、新しい Realtime 音声モデルを 3 種発表しました：GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper。いずれも Realtime API により開発者に提供されます。OpenAI 公式の告知では、GPT-Realtime-2 は OpenAI 初の GPT-5 レベルの推論能力を備えた音声モデルであり、音声対話の中で即時に推論し、ツールを呼び出し、修正を処理し、自然な会話のリズムを維持できると説明しています。

GPT-Realtime-2：context は 32K から 128K に拡大、5段階の推論強度を調整可能

GPT-Realtime-2 の主なアップグレード：

context window：32K から 128K tokens へ

推論強度を調整：minimal、low、medium、high、xhigh の 5段階

Big Bench Audio のテスト：high で 96.6%、前身の GPT-Realtime-1.5 は 81.4%

Audio MultiChallenge の指示遵守：xhigh で 48.5%、前身の 34.7%

より大きな context と、調整可能な推論強度により、開発者は「安くて速い」と「深い思考」の間でシーンに応じて切り替えられます。たとえば、簡単なカスタマーサポートは minimal モードでコストを抑え、複雑なタスクは xhigh に切り替えて GPT-5 レベルの推論品質を得られます。

同時に 2 つの専用モデルもリリース：Translate はクロス言語対応、Whisper は即時文字起こし

今回の 3 つの新モデルの役割分担：

GPT-Realtime-Translate：リアルタイムの多言語音声翻訳。入力 70 種類の言語、出力 13 種類の言語に対応

GPT-Realtime-Whisper：低遅延のストリーミング文字起こし。話しながら文字が出る。リアルタイム字幕、会議記録、授業の逐語稿に適用

GPT-Realtime-2：完全な対話 Agent。推論でき、ツールを使い、アクションを実行可能

Translate と Whisper は特定の音声アプリケーション向けにモデルを専門化したものです。翻訳と文字起こしは、汎用対話より遅延とコストの感度が高いため、独立したモデルによりそれぞれの指標を最適化できます。

料金：GPT-Realtime-2 は 12.8万入力あたり 32 米ドル、3.2万出力あたり 64 米ドル

3 つのモデルの価格構造：

GPT-Realtime-2：12.8万音声入力あたり 32 米ドル、cached 入力 0.40 米ドル、12.8万出力あたり 64 米ドル

GPT-Realtime-Translate：1 分あたり 0.034 米ドル

GPT-Realtime-Whisper：1 分あたり 0.017 米ドル

今後追跡できる具体的な出来事：GPT-Realtime-2 が生産環境での音声 Agent に実際にどれだけ採用されるか、既存の GPT-4o 音声モデルとの cannibalization の程度、そして Anthropic や Google などの競合の対標に対する反応。

この記事で「OpenAI が GPT-Realtime-2 を推す：GPT-5 の推論を音声 Agent に投入し、context は 128K へ」が最初に登場したのは鏈新聞 ABMedia です。

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。