OpenAI は 5 月 7 日(米国時間)に開発者カンファレンスで、新しい Realtime 音声モデルを 3 種発表しました:GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper。いずれも Realtime API により開発者に提供されます。OpenAI 公式の告知では、GPT-Realtime-2 は OpenAI 初の GPT-5 レベルの推論能力を備えた音声モデルであり、音声対話の中で即時に推論し、ツールを呼び出し、修正を処理し、自然な会話のリズムを維持できると説明しています。
GPT-Realtime-2:context は 32K から 128K に拡大、5段階の推論強度を調整可能
GPT-Realtime-2 の主なアップグレード:
context window:32K から 128K tokens へ
推論強度を調整:minimal、low、medium、high、xhigh の 5段階
Big Bench Audio のテスト:high で 96.6%、前身の GPT-Realtime-1.5 は 81.4%
Audio MultiChallenge の指示遵守:xhigh で 48.5%、前身の 34.7%
より大きな context と、調整可能な推論強度により、開発者は「安くて速い」と「深い思考」の間でシーンに応じて切り替えられます。たとえば、簡単なカスタマーサポートは minimal モードでコストを抑え、複雑なタスクは xhigh に切り替えて GPT-5 レベルの推論品質を得られます。
同時に 2 つの専用モデルもリリース:Translate はクロス言語対応、Whisper は即時文字起こし
今回の 3 つの新モデルの役割分担:
GPT-Realtime-Translate:リアルタイムの多言語音声翻訳。入力 70 種類の言語、出力 13 種類の言語に対応
GPT-Realtime-Whisper:低遅延のストリーミング文字起こし。話しながら文字が出る。リアルタイム字幕、会議記録、授業の逐語稿に適用
GPT-Realtime-2:完全な対話 Agent。推論でき、ツールを使い、アクションを実行可能
Translate と Whisper は特定の音声アプリケーション向けにモデルを専門化したものです。翻訳と文字起こしは、汎用対話より遅延とコストの感度が高いため、独立したモデルによりそれぞれの指標を最適化できます。
料金:GPT-Realtime-2 は 12.8万入力あたり 32 米ドル、3.2万出力あたり 64 米ドル
3 つのモデルの価格構造:
GPT-Realtime-2:12.8万音声入力あたり 32 米ドル、cached 入力 0.40 米ドル、12.8万出力あたり 64 米ドル
GPT-Realtime-Translate:1 分あたり 0.034 米ドル
GPT-Realtime-Whisper:1 分あたり 0.017 米ドル
今後追跡できる具体的な出来事:GPT-Realtime-2 が生産環境での音声 Agent に実際にどれだけ採用されるか、既存の GPT-4o 音声モデルとの cannibalization の程度、そして Anthropic や Google などの競合の対標に対する反応。
この記事で「OpenAI が GPT-Realtime-2 を推す:GPT-5 の推論を音声 Agent に投入し、context は 128K へ」が最初に登場したのは 鏈新聞 ABMedia です。
Related News
NVIDIA が Nemotron 3 Nano Omni を発表:オープンソースのマルチモーダル
OpenAI DevDay 2026 は 9/29 にサンフランシスコで開催されます
OpenAI、ChatGPT Futuresを推進:第1期の26名の学生が1万米ドルの奨学金を獲得、20以上の大学にまたがって開催
OpenAI が MRC スーパコンピュータ ネットワーク プロトコルを公開!NVIDIA、AMD、Microsoft と協力して Stargate の基盤インフラを構築
ChatGPT、Excel と Google Sheets に対応:GPT-5.5 が試算表に直接ログイン、Copilot と Gemini が三つ巴で対決