Une startup d'intelligence artificielle, aiOla, a lancé une nouvelle solution capable de révolutionner la précision de la reconnaissance vocale. Le système "Passerelle intelligente vocale" développé par la société peut analyser en temps réel la voix de l'utilisateur et se connecter automatiquement au modèle de reconnaissance vocale le plus adapté. Ce système choisit le modèle optimal pour obtenir la meilleure précision après avoir évalué dynamiquement les caractéristiques complexes du langage.
L'année dernière, aiOla a dévoilé "DRAX", un modèle d'IA vocale qui surmonte les limitations des systèmes traditionnels grâce à une technologie d'apprentissage en flux parallèle. DRAX peut traiter simultanément toutes les phrases et montre une performance robuste face à divers variables réelles telles que le bruit ambiant ou l'intonation. Sur cette base, la nouvelle technologie "QUASAR" analyse les caractéristiques vocales, l'intonation du locuteur, la présence ou l'absence de bruit, le contexte, etc., pour sélectionner automatiquement le moteur de reconnaissance vocale le plus approprié parmi de nombreux moteurs automatiques.
Bien que le marché actuel de l'IA vocale compte plusieurs fournisseurs de services ASR (reconnaissance automatique de la parole) qui se concurrencent en optimisant la reconnaissance dans des environnements bruyants ou avec différentes intonations, notamment Whisper d'OpenAI, Transcribe d'Amazon, Qwen2 d'Alibaba et Deepgram, la majorité des entreprises utilisent encore un seul modèle qui performe le mieux lors des évaluations standard. Cela entraîne une fréquence élevée d'erreurs de reconnaissance en environnement réel, ce qui nuit considérablement à l'expérience utilisateur et suscite des critiques continues.
Le co-fondateur et président d'aiOla, Amir Haramaty, a souligné la situation où les entreprises doivent supporter les défauts d'un modèle ASR spécifique : "Certains modèles excellent dans le traitement de l'anglais américain, mais sont souvent inefficaces dans des environnements avec une intonation britannique ou du bruit." Il a insisté : "QUASAR est le premier système à considérer la reconnaissance vocale comme un problème dynamique plutôt que comme une technologie statique."
Lors de tests internes, aiOla a appliqué ce système à divers environnements réels avec différentes intonations, bruits de fond et contenus spécialisés. Les résultats montrent qu'il peut sélectionner dynamiquement le moteur ASR optimal dans 88,8 % des demandes pour améliorer la précision. La technologie devrait considérablement améliorer la compréhension dans des domaines tels que le support client, la transcription de réunions ou les systèmes de réponse automatique.
Haramaty a déclaré : "Alors que la reconnaissance vocale devient progressivement une interface fondamentale reliant l'humain à l'IA, les erreurs de reconnaissance deviennent inacceptables." Il a qualifié QUASAR de "technologie qui transforme l'ASR en une infrastructure vivante" et a ajouté : "Ce n'est pas seulement une avancée technologique, mais une révolution pouvant impacter tout, des centres d'appels mondiaux traitant des milliards d'appels à des développeurs indépendants créant des sous-titres."
aiOla prévoit d'utiliser cette technologie pour améliorer considérablement la praticité et la fiabilité des interfaces vocales IA, créant ainsi une rupture structurelle dans l'écosystème de l'IA vocale.