OpenAI lanza tres modelos de voz en la API de tiempo real; GPT-Realtime-2 incluye una ventana de contexto de 128K

Beating afirma que OpenAI lanzó tres modelos de voz en su Realtime API: GPT-Realtime-2 para conversaciones de voz con razonamiento, GPT-Realtime-Translate para traducción en tiempo real y GPT-Realtime-Whisper para transcripción en streaming. GPT-Realtime-2 es el primer modelo de voz de OpenAI con capacidad de razonamiento a nivel GPT-5, ampliando la ventana de contexto de 32K a 128K tokens, y permitiendo hasta 1-2 horas de conversación densa.

GPT-Realtime-2 mejoró un 15,2% en el benchmark Big Bench Audio y un 13,8% en Audio MultiChallenge frente a GPT-Realtime-1.5. GPT-Realtime-Translate admite 70+ idiomas de entrada para traducir a 13 idiomas de salida. Precios: GPT-Realtime-2 a 32 USD por millón de tokens de entrada y 64 USD por millón de tokens de salida; Translate a 0,034 USD por minuto; Whisper a 0,017 USD por minuto.

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios