Home Technologies ASR Reconnaissance Automatique Parole

Reconnaissance automatique de la parole (ASR)

Qu’est-ce que la reconnaissance automatique de la parole ?

La reconnaissance automatique de la parole ou Automatic Speech Recognition (ASR) est une technologie qui permet de retranscrire à l’écrit des propos oraux.

Ubiqus utilise une variante particulière de l’ASR : la LVCSR (Large Vocabulary Continuous Speech Recognition). Ce système de reconnaissance à vocabulaire élargi est basé sur l’identification automatique de très courtes séquences audio et permet de produire une transcription d’excellente qualité. Ces dernières années, la reconnaissance vocale s’est grandement améliorée, et notre équipe de recherche et développement contribue sans cesse à ces avancées.

Notre méthode nous permet de traiter des enregistrements contenant du vocabulaire général, mais également des termes plus spécifiques des domaines comme le technique, le juridique et le médical.

Pour arriver à la transcription finale, le processus comprend 4 étapes :

1 | La détection d’activité vocale

Pour commencer, il faut déterminer à quels moments de l’enregistrement une personne s’exprime, et ce, afin de découper la bande-son en segments. La machine peut ensuite travailler sur chacun de ces segments, un à un.

2 | La diarisation

Il faut ensuite différencier les locuteurs qui s’expriment en leur associant des segments, ce qui permet d’attribuer les prises de parole à la bonne personne dans la transcription. Pour cela, la machine utilise différents moteurs alimentés par des données particulières (langues, voix). Elle peut ainsi prendre en compte certaines subtilités de langage, comme les accents, par exemple. À ce stade, les données sont encore traitées de façon « mathématique ».

3 | Le décodage

C’est à ce moment que la notion de transcription fait son apparition. Une liste de syllabes (phonèmes) possibles est dressée pour chaque segment audio. Pour l’instant, aucune phrase n’est écrite : il n’y a qu’une longue liste de possibilités auxquelles un score est attribué.

4 | L’encodage

L’ordinateur choisit, parmi tous les phonèmes et les mots appris lors de son entraînement initial, ceux qui forment la phrase la plus probable (un peu comme un GPS qui cherche un trajet optimal). C’est cette phrase qui sera ensuite retranscrite.

Cette mécanique est appliquée à l’ensemble des segments de l’enregistrement pour produire une transcription complète.

À la fin de ce processus automatisé, le document est relu par nos équipes, comme c’est le cas pour les autres documents Ubiqus. En plus de vérifier le contenu en tant que tel, le relecteur s’assurera également que les propos sont associés à la bonne personne et que la mise en page est correcte.

Pour en savoir plus sur nos interfaces de traduction, contactez-nous!

L’alliance de la technologie et du savoir-faire humain chez Ubiqus

Vous connaissez bien la qualité des documents produits par Ubiqus et la transcription automatique vous tente? Lancez-vous!

Le niveau de qualité en transcription automatique est aussi élevé qu’en transcription classique. En effet, une fois la transcription automatique réalisée, la relecture assure un résultat optimal.