OpenAI el 7 de mayo (hora de EE. UU.) anunció en una conferencia para desarrolladores tres nuevos modelos de voz Realtime: GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper, todos disponibles para desarrolladores a través de la Realtime API. El anuncio oficial de OpenAI explica que GPT-Realtime-2 es el primer modelo de voz de OpenAI con capacidades de razonamiento de nivel GPT-5, capaz de razonar en tiempo real en conversaciones de voz, llamar herramientas, procesar correcciones y mantener un ritmo de conversación natural.
GPT-Realtime-2: el context sube de 32K a 128K, con intensidad de razonamiento ajustable en cinco niveles
Las principales mejoras de GPT-Realtime-2:
Ventana de context: de 32K a 128K tokens
Intensidad de razonamiento ajustable: minimal, low, medium, high y xhigh, en cinco niveles
Prueba Big Bench Audio: high logra 96,6%, mientras que el predecesor GPT-Realtime-1.5 es 81,4%
Cumplimiento de instrucciones de Audio MultiChallenge: xhigh razona 48,5%, frente al 34,7% del predecesor
Un context más grande y la posibilidad de ajustar la intensidad de razonamiento permiten a los desarrolladores cambiar entre “barato y rápido” y “pensamiento profundo” según el escenario: un servicio de atención simple puede usar el modo minimal para controlar costos, mientras que tareas complejas se derivan a xhigh para obtener una calidad de razonamiento de nivel GPT-5.
En paralelo, se publican dos modelos especializados: Translate para traducción entre idiomas y Whisper para transcripción en tiempo real.
En esta tanda de tres modelos, la división de roles es:
GPT-Realtime-Translate: traducción de voz multilingüe en tiempo real, admite 70 idiomas de entrada y 13 idiomas de salida
GPT-Realtime-Whisper: transcripción en streaming de baja latencia, genera texto mientras se habla, adecuado para subtítulos en tiempo real, actas de reuniones y transcripciones palabra por palabra de clases
GPT-Realtime-2: agente de conversación completa, con razonamiento, uso de herramientas y ejecución de acciones
Translate y Whisper están especializados para aplicaciones de voz específicas: la traducción y la transcripción son más sensibles a latencia y costos que una conversación general; por eso, usar modelos independientes permite optimizar métricas respectivas.
Precios: GPT-Realtime-2 cuesta 32 dólares por cada millón de entradas y 64 dólares por cada millón de salidas
Estructura de precios de los tres modelos:
GPT-Realtime-2: 32 dólares por cada millón de entradas de voz, 0,40 dólares por entradas cached y 64 dólares por cada millón de salidas
GPT-Realtime-Translate: 0,034 dólares por minuto
GPT-Realtime-Whisper: 0,017 dólares por minuto
Eventos concretos a seguir: la adopción real de GPT-Realtime-2 en entornos de agentes de voz de producción, el grado de canibalización frente a los modelos de voz existentes GPT-4o, y las respuestas comparativas de competidores como Anthropic y Google.
Este artículo sobre GPT-Realtime-2 de OpenAI: lleva el razonamiento de GPT-5 a agentes de voz, sube el context a 128K, aparece por primera vez en CadenaNews ABMedia.
Related News
NVIDIA lanza Nemotron 3 Nano Omni, código abierto multimodal
OpenAI DevDay 2026 se llevará a cabo el 29/9 en San Francisco
OpenAI presenta ChatGPT Futures: 26 estudiantes de la primera promoción reciben una beca de 10.000 dólares, en más de 20 universidades
OpenAI publica el protocolo de la red supercomputadora MRC. En colaboración con NVIDIA, AMD y Microsoft para crear la infraestructura de Stargate
ChatGPT lanza Excel y Google Sheets: GPT-5.5 inicia sesión directamente en la hoja de cálculo, duelo entre Copilot y Gemini