OpenAI lanza GPT-Realtime-2: introduce el razonamiento de GPT-5 en agentes de voz y eleva el contexto a 128K

OpenAI el 7 de mayo (hora de EE. UU.) anunció en una conferencia para desarrolladores tres nuevos modelos de voz Realtime: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper, todos disponibles para desarrolladores a través de la Realtime API. El anuncio oficial de OpenAI explica que GPT-Realtime-2 es el primer modelo de voz de OpenAI con capacidades de razonamiento de nivel GPT-5, capaz de razonar en tiempo real en conversaciones de voz, llamar herramientas, procesar correcciones y mantener un ritmo de conversación natural.

GPT-Realtime-2: el context sube de 32K a 128K, con intensidad de razonamiento ajustable en cinco niveles

Las principales mejoras de GPT-Realtime-2:

Ventana de context: de 32K a 128K tokens

Intensidad de razonamiento ajustable: minimal, low, medium, high y xhigh, en cinco niveles

Prueba Big Bench Audio: high logra 96,6%, mientras que el predecesor GPT-Realtime-1.5 es 81,4%

Cumplimiento de instrucciones de Audio MultiChallenge: xhigh razona 48,5%, frente al 34,7% del predecesor

Un context más grande y la posibilidad de ajustar la intensidad de razonamiento permiten a los desarrolladores cambiar entre “barato y rápido” y “pensamiento profundo” según el escenario: un servicio de atención simple puede usar el modo minimal para controlar costos, mientras que tareas complejas se derivan a xhigh para obtener una calidad de razonamiento de nivel GPT-5.

En paralelo, se publican dos modelos especializados: Translate para traducción entre idiomas y Whisper para transcripción en tiempo real.

En esta tanda de tres modelos, la división de roles es:

GPT-Realtime-Translate: traducción de voz multilingüe en tiempo real, admite 70 idiomas de entrada y 13 idiomas de salida

GPT-Realtime-Whisper: transcripción en streaming de baja latencia, genera texto mientras se habla, adecuado para subtítulos en tiempo real, actas de reuniones y transcripciones palabra por palabra de clases

GPT-Realtime-2: agente de conversación completa, con razonamiento, uso de herramientas y ejecución de acciones

Translate y Whisper están especializados para aplicaciones de voz específicas: la traducción y la transcripción son más sensibles a latencia y costos que una conversación general; por eso, usar modelos independientes permite optimizar métricas respectivas.

Precios: GPT-Realtime-2 cuesta 32 dólares por cada millón de entradas y 64 dólares por cada millón de salidas

Estructura de precios de los tres modelos:

GPT-Realtime-2: 32 dólares por cada millón de entradas de voz, 0,40 dólares por entradas cached y 64 dólares por cada millón de salidas

GPT-Realtime-Translate: 0,034 dólares por minuto

GPT-Realtime-Whisper: 0,017 dólares por minuto

Eventos concretos a seguir: la adopción real de GPT-Realtime-2 en entornos de agentes de voz de producción, el grado de canibalización frente a los modelos de voz existentes GPT-4o, y las respuestas comparativas de competidores como Anthropic y Google.

Este artículo sobre GPT-Realtime-2 de OpenAI: lleva el razonamiento de GPT-5 a agentes de voz, sube el context a 128K, aparece por primera vez en CadenaNews ABMedia.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios