根據 Beating,OpenAI 在其 Realtime API 中發布了三款語音模型:GPT-Realtime-2 用於具有推理能力的語音對話、GPT-Realtime-Translate 用於即時翻譯,以及 GPT-Realtime-Whisper 用於串流轉錄。GPT-Realtime-2 是 OpenAI 首款具備 GPT-5 等級推理能力的語音模型,將上下文視窗從 32K 擴展至 128K tokens,並支援最多 1-2 小時的高密度對話。
相較於 GPT-Realtime-1.5,GPT-Realtime-2 在 Big Bench Audio 基準上提升了 15.2%,在 Audio MultiChallenge 上提升了 13.8%。GPT-Realtime-Translate 支援 70+ 種輸入語言,翻譯為 13 種輸出語言。定價:GPT-Realtime-2 的輸入為 3.2萬美元/百萬輸入 tokens、輸出為 64 萬美元/百萬輸出 tokens;Translate 為 0.034 美元/分鐘;Whisper 為 0.017 美元/分鐘。
Related News