Percebi um movimento interessante na área de reconhecimento de fala. A Sierra disponibilizou publicamente o μ-Bench — um conjunto de dados multilíngue para avaliação de sistemas ASR, e isso parece um passo bastante sério.



Qual é a essência: o conjunto inclui 250 gravações reais de atendimento ao cliente e 4270 trechos de áudio anotados. A principal diferença em relação aos benchmarks existentes é que aqui não há apenas o idioma inglês. São suportados cinco idiomas — inglês, espanhol, turco, vietnamita e mandarim.

Especialmente interessante é a nova métrica UER (Taxa de Erro na Frase). Ela diferencia erros que alteram o significado da fala daqueles que não prejudicam o sentido. Isso é muito mais sutil do que a métrica clássica WER, onde todos os erros são considerados iguais.

De acordo com os resultados dos testes: o Google Chirp-3 lidera em precisão, o Deepgram Nova-3 é o mais rápido, mas fica atrás na multilinguagem. É interessante ver como isso vai evoluir.

O conjunto de dados e a tabela de resultados já estão disponíveis no Hugging Face, para que outros desenvolvedores possam participar da avaliação. Parece que o μ-Bench está se tornando o novo padrão para avaliações sérias de ASR em ambientes de atendimento ao cliente.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Marcar