OpenAI 於即時 API 發布三款語音模型;GPT-Realtime-2 具備 128K 上下文窗口

根據 Beating,OpenAI 在其 Realtime API 中發布了三款語音模型:GPT-Realtime-2 用於具有推理能力的語音對話、GPT-Realtime-Translate 用於即時翻譯,以及 GPT-Realtime-Whisper 用於串流轉錄。GPT-Realtime-2 是 OpenAI 首款具備 GPT-5 等級推理能力的語音模型,將上下文視窗從 32K 擴展至 128K tokens,並支援最多 1-2 小時的高密度對話。

相較於 GPT-Realtime-1.5,GPT-Realtime-2 在 Big Bench Audio 基準上提升了 15.2%,在 Audio MultiChallenge 上提升了 13.8%。GPT-Realtime-Translate 支援 70+ 種輸入語言,翻譯為 13 種輸出語言。定價:GPT-Realtime-2 的輸入為 3.2萬美元/百萬輸入 tokens、輸出為 64 萬美元/百萬輸出 tokens;Translate 為 0.034 美元/分鐘;Whisper 為 0.017 美元/分鐘。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
回覆
0/400
暫無回覆