Le domaine de la Reconnaissance Automatique de la Parole (ASR) a connu une transformation considérable grâce aux progrès de l’Intelligence Artificielle (IA). La technologie ASR a révolutionné les technologies activées par la voix et l’interaction homme-machine, permettant une communication plus fluide entre les humains et les machines. L’un des composants fondamentaux de l’ASR est la conversion précise du langage parlé en texte écrit.
Dans une étude récente menée par des chercheurs de NVIDIA, l’accent a été mis sur l’amélioration des performances des modèles de Classification Temporelle Connectionniste (CTC) dans les pipelines ASR. Ces modèles ont gagné en popularité en raison de leur capacité à gérer les complexités du langage parlé et à interpréter les séquences temporelles de manière efficace. Cependant, la méthode de décodage de recherche par faisceaux basée sur CPU traditionnelle présente des limitations quant aux capacités de ces modèles.
Le processus de décodage de recherche par faisceaux est essentiel pour transcrire précisément les mots parlés. L’approche conventionnelle, connue sous le nom de méthode de recherche gloutonne, utilise le modèle acoustique pour déterminer le jeton de sortie le plus probable à chaque instant. Cependant, cette méthode rencontre des difficultés lorsqu’il s’agit de gérer les biais contextuels et d’incorporer des données externes.
Pour relever ces défis, l’équipe de NVIDIA a proposé une solution révolutionnaire : le décodeur de recherche par faisceaux à transducteur fini pondéré (WFST) accéléré par GPU. Ce décodeur vise à s’intégrer parfaitement aux modèles CTC existants, améliorant ainsi les performances globales des pipelines ASR. En utilisant la puissance des unités de traitement graphique (GPU), le décodeur accéléré par GPU améliore le débit, réduit la latence et introduit des fonctionnalités telles que la composition en temps réel pour une amplification des mots spécifique à chaque énoncé. Son efficacité et sa faible latence le rendent particulièrement adapté à l’inférence en continu.
Lors de tests hors ligne, le décodeur accéléré par GPU a atteint un débit jusqu’à sept fois supérieur par rapport au décodeur CPU de pointe. Dans le scénario de diffusion en ligne, le décodeur accéléré par GPU a présenté une latence plus de huit fois inférieure tout en conservant des taux d’erreurs de mots identiques ou supérieurs. Ces résultats mettent en évidence les améliorations significatives en termes d’efficacité et de précision obtenues en utilisant le décodeur de recherche par faisceaux WFST accéléré par GPU avec les modèles CTC suggérés.
Grâce à l’introduction du décodeur accéléré par GPU, les contraintes de performance de la décodage de recherche par faisceaux basé sur CPU dans les modèles CTC ont été surmontées. Ce décodeur offre la solution la plus rapide pour les modèles CTC, que ce soit dans des contextes hors ligne ou en ligne, offrant un débit amélioré, une latence réduite et la prise en charge de fonctionnalités avancées. Les développeurs Python peuvent facilement intégrer le décodeur dans leurs cadres d’apprentissage automatique en utilisant les liaisons Python pré-construites basées sur DLPack disponibles sur GitHub, améliorant ainsi encore l’utilisabilité de cette solution. L’adoption de cette percée dans la technologie ASR ouvre la voie à des systèmes de reconnaissance automatique de la parole encore plus précis et efficaces.
Sources :
– Recherche NVIDIA : Enseigner aux machines à comprendre le langage parlé
– Dépôt GitHub : Décodeur de recherche par faisceaux WFST accéléré par GPU