Beating afirma que OpenAI lanzó tres modelos de voz en su Realtime API: GPT-Realtime-2 para conversaciones de voz con razonamiento, GPT-Realtime-Translate para traducción en tiempo real y GPT-Realtime-Whisper para transcripción en streaming. GPT-Realtime-2 es el primer modelo de voz de OpenAI con capacidad de razonamiento a nivel GPT-5, ampliando la ventana de contexto de 32K a 128K tokens, y permitiendo hasta 1-2 horas de conversación densa.
GPT-Realtime-2 mejoró un 15,2% en el benchmark Big Bench Audio y un 13,8% en Audio MultiChallenge frente a GPT-Realtime-1.5. GPT-Realtime-Translate admite 70+ idiomas de entrada para traducir a 13 idiomas de salida. Precios: GPT-Realtime-2 a 32 USD por millón de tokens de entrada y 64 USD por millón de tokens de salida; Translate a 0,034 USD por minuto; Whisper a 0,017 USD por minuto.
Related News
NVIDIA lanza Nemotron 3 Nano Omni, código abierto multimodal
OpenAI presenta ChatGPT Futures: 26 estudiantes de la primera promoción reciben una beca de 10.000 dólares, en más de 20 universidades
OpenAI publica el protocolo de la red supercomputadora MRC. En colaboración con NVIDIA, AMD y Microsoft para crear la infraestructura de Stargate