A OpenAI Lança Três Modelos de Voz na API em Tempo Real; GPT-Realtime-2 Inclui uma Janela de Contexto de 128K

De acordo com Beating, a OpenAI lançou três modelos de voz na sua Realtime API: GPT-Realtime-2 para conversação por voz com raciocínio, GPT-Realtime-Translate para tradução em tempo real e GPT-Realtime-Whisper para transcrição em streaming. O GPT-Realtime-2 é o primeiro modelo de voz da OpenAI com capacidade de raciocínio ao nível do GPT-5, expandindo a janela de contexto de 32K para 128K tokens, com suporte para até 1-2 horas de conversação densa.

O GPT-Realtime-2 melhorou 15,2% no benchmark Big Bench Audio e 13,8% no Audio MultiChallenge em comparação com o GPT-Realtime-1.5. O GPT-Realtime-Translate suporta mais de 70 línguas de entrada para traduzir para 13 línguas de saída. Preços: GPT-Realtime-2 a 32 USD/milhão de tokens de entrada e 64 USD/milhão de tokens de saída; Translate a 0,034 USD/minuto; Whisper a 0,017 USD/minuto.

Isenção de responsabilidade: As informações contidas nesta página podem ser provenientes de terceiros e não representam os pontos de vista ou opiniões da Gate. O conteúdo apresentado nesta página é apenas para referência e não constitui qualquer aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou o carácter exaustivo das informações e não poderá ser responsabilizada por quaisquer perdas resultantes da utilização destas informações. Os investimentos em ativos virtuais implicam riscos elevados e estão sujeitos a uma volatilidade de preços significativa. Pode perder todo o seu capital investido. Compreenda plenamente os riscos relevantes e tome decisões prudentes com base na sua própria situação financeira e tolerância ao risco. Para mais informações, consulte a Isenção de responsabilidade.
Comentar
0/400
Nenhum comentário