OpenAI lança o GPT-Realtime-2: leva o raciocínio do GPT-5 para agentes de voz e eleva o contexto para 128K

ChainNewsAbmedia

A OpenAI em 7 de maio (horário dos EUA) anunciou três novos modelos de voz Realtime na conferência de desenvolvedores: GPT-Realtime-2, GPT-Realtime-Translate e GPT-Realtime-Whisper, todos disponibilizados para desenvolvedores via Realtime API. O comunicado oficial da OpenAI explica que o GPT-Realtime-2 é o primeiro modelo de voz da OpenAI com capacidade de raciocínio no nível do GPT-5, capaz de fazer inferências em tempo real em conversas de voz, chamar ferramentas, lidar com correções e manter o ritmo natural do diálogo.

GPT-Realtime-2: context de 32K para 128K, com intensidade de raciocínio ajustável em cinco níveis

Principais atualizações do GPT-Realtime-2:

Janela de context: de 32K para 128K tokens

Intensidade de raciocínio ajustável: minimal, low, medium, high e xhigh (cinco níveis)

Teste Big Bench Audio: high com 96,6% de acerto; o antecessor GPT-Realtime-1.5 com 81,4%

Instruções de adesão a Audio MultiChallenge: xhigh com 48,5%; o antecessor com 34,7%

Context maior e níveis de raciocínio ajustáveis permitem que os desenvolvedores alternem entre “barato e rápido” e “pensar profundamente” conforme o cenário—um suporte simples ao cliente pode usar minimal para controlar custos, enquanto tarefas complexas podem mudar para xhigh para obter qualidade de raciocínio no nível do GPT-5.

Lançamento simultâneo de dois modelos especializados: Translate para tradução entre idiomas e Whisper para transcrição em tempo real

Nesta rodada de três novos modelos, a divisão de funções é:

GPT-Realtime-Translate: tradução de voz multilingue em tempo real, com suporte a 70 idiomas de entrada e 13 idiomas de saída

GPT-Realtime-Whisper: transcrição em streaming com baixa latência, gerando texto enquanto a pessoa fala, indicado para legendas em tempo real, registros de reuniões e transcrições palavra por palavra de aulas

GPT-Realtime-2: agente completo de conversas, com capacidade de raciocinar, usar ferramentas e executar ações

Translate e Whisper foram especializados para aplicações específicas de voz—tanto a sensibilidade a latência quanto a custos é maior na tradução e na transcrição do que em conversas genéricas; por isso, usar modelos independentes permite otimizar métricas específicas.

Preços: GPT-Realtime-2 custa US$ 32 por 1 milhão de entradas e US$ 64 por 1 milhão de saídas

Estrutura de preços para os três modelos:

GPT-Realtime-2: US$ 32 por 1 milhão de entradas de voz, entradas em cache a US$ 0,40, e US$ 64 por 1 milhão de saídas

GPT-Realtime-Translate: US$ 0,034 por minuto

GPT-Realtime-Whisper: US$ 0,017 por minuto

Eventos específicos a acompanhar depois: adoção prática do GPT-Realtime-2 como agente de voz em ambientes de produção, o grau de canibalização em relação ao modelo de voz existente GPT-4o e as reações de concorrentes como Anthropic e Google.

Este artigo em que a OpenAI anuncia o GPT-Realtime-2: levar o raciocínio do GPT-5 para agentes de voz e aumentar o context para 128K foi publicado pela primeira vez na Cadeia News ABMedia.

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.
Comentário
0/400
Sem comentários