Beating: OpenAI выпустила три голосовые модели в своей Realtime API: GPT-Realtime-2 для голосового общения с рассуждениями, GPT-Realtime-Translate для перевода в реальном времени и GPT-Realtime-Whisper для потоковой транскрибации. GPT-Realtime-2 — первая голосовая модель OpenAI с возможностями рассуждений на уровне GPT-5: она расширяет контекстное окно с 32K до 128K токенов и поддерживает до 1-2 часов плотного разговора.
GPT-Realtime-2 улучшила на 15,2% результат в бенчмарке Big Bench Audio и на 13,8% — в Audio MultiChallenge по сравнению с GPT-Realtime-1.5. GPT-Realtime-Translate поддерживает 70+ входных языков и перевод на 13 выходных языков. Цены: GPT-Realtime-2 — $32 за 32k входных токенов и $64 за 128k выходных токенов; Translate — $0,034 за минуту; Whisper — $0,017 за минуту.
Related News
NVIDIA представила Nemotron 3 Nano Omni — открытый мультимодальный проект
OpenAI представляет ChatGPT Futures: 26 студентов первого набора получили гранты по 10k долларов, охватившие более 20 университетов
OpenAI публикует протокол сети суперкомпьютера MRC! В сотрудничестве с Nvidia, AMD и Microsoft создаёт базовую инфраструктуру Stargate