OpenAI выпускает GPT-Realtime-2: переносит рассуждения GPT-5 в голосовых агентов, контекст увеличен до 128K

OpenAI 7 мая (по времени США) на конференции разработчиков объявила о трех новых Realtime-моделях: GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper. Все они открыты для разработчиков через Realtime API. В официальном объявлении OpenAI говорится, что GPT-Realtime-2 — первая голосовая модель OpenAI с уровнем рассуждений, соответствующим GPT-5: она умеет выполнять рассуждения в реальном времени во время голосового диалога, вызывать инструменты, обрабатывать исправления и поддерживать естественный темп общения.

GPT-Realtime-2: context вырос с 32K до 128K, а силу рассуждений можно настраивать в пяти режимах

Ключевые обновления GPT-Realtime-2:

context window: с 32K до 128K токенов

Сила рассуждений настраивается: minimal, low, medium, high, xhigh — пять уровней

Тест Big Bench Audio: при high точность рассуждений 96,6%, для предшественника GPT-Realtime-1.5 — 81,4%

Инструкции по Audio MultiChallenge: xhigh — 48,5%, у предшественника — 34,7%

Больший context и настраиваемая сила рассуждений позволяют разработчикам переключаться между режимом «дешево и быстро» и «глубокое мышление» в зависимости от сценария: для простой поддержки можно использовать minimal, а для сложных задач переключаться на xhigh, чтобы получать качество рассуждений уровня GPT-5.

Параллельно опубликованы две специализированные модели: Translate для перевода между языками и Whisper для мгновенной расшифровки

На этот раз распределение ролей трех новых моделей:

GPT-Realtime-Translate: мгновенный многоязычный голосовой перевод, поддержка 70 языков ввода и 13 языков вывода

GPT-Realtime-Whisper: потоковая расшифровка с низкой задержкой, текст появляется по мере произнесения, подходит для живых субтитров, записи встреч, а также покадровых расшифровок уроков

GPT-Realtime-2: полноценный диалоговый Agent, умеет рассуждать, использовать инструменты и выполнять действия

Translate и Whisper — модели, оптимизированные под конкретные голосовые сценарии: перевод и расшифровка требуют более чувствительных к задержкам и стоимости параметров, чем универсальный диалог, поэтому отдельные модели позволяют оптимизировать собственные метрики.

Ценообразование: GPT-Realtime-2 — 32 доллара за миллион входящих токенов, 64 доллара за миллион выходных

Структура цен трех моделей:

GPT-Realtime-2: 32 доллара за миллион аудиовхода, cached-ввод 0,40 доллара, выход 64 доллара

GPT-Realtime-Translate: 0,034 доллара в минуту

GPT-Realtime-Whisper: 0,017 доллара в минуту

Конкретные события, за которыми стоит следить дальше: реальное внедрение GPT-Realtime-2 в производственных голосовых Agent-сценариях, степень cannibalization по сравнению с существующими голосовыми моделями GPT-4o, а также реакция конкурентов вроде Anthropic и Google.

Эта статья про то, как OpenAI продвигает GPT-Realtime-2: перенос рассуждений GPT-5 в голосовые Agent и рост context до 128K, впервые появилась в Lianxin ABMedia.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев