Notícias do site Coinjie, Zhaoye Xingchen lançou o novo modelo de reconhecimento automático de fala StepAudio 2.5 ASR, que já está totalmente disponível na sua plataforma aberta.


Esta versão foi a primeira a introduzir a tecnologia de previsão de múltiplos tokens de grandes modelos de linguagem (MTP) no campo do reconhecimento de fala, aumentando significativamente a velocidade de inferência, ao mesmo tempo em que reutiliza a janela de contexto de 32K do grande modelo, quebrando a limitação tradicional de transcrição de áudio longo que exige corte e junção.
O novo modelo reutiliza diretamente a janela de contexto de 32K, suportando entrada de áudio completo de até 30 minutos em uma única leitura de ponta a ponta.
Durante testes de entrada máxima de 30 minutos, o modelo não apresentou deterioração de precisão ao longo do tempo, e suas taxas de erro geral em 10 conjuntos de testes de código aberto de autoridade em chinês e inglês, como Librispeech, foram inferiores às de produtos concorrentes.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar