Sélectionner une page

Home Technologies ASR Reconnaissance Automatique Parole

Automatic Speech Recognition (ASR)

Qu’est-ce que la reconnaissance automatique de la parole ?

La reconnaissance automatique de la parole ou Automatic Speech Recognition (ASR) est une technologie permettant de retranscrire à l’écrit les propos tenus à l’oral.

Ubiqus utilise un domaine précis de l’ASR qui est le LVCSR (Large Vocabulary Continuous Speech Recognition) : basée sur l’identification automatique de très courtes séquences audio, cette technologie permet de produire une transcription d’excellente qualité, sous réserve d’un audio enregistré de façon correcte. L’état de l’art de l’ASR a grandement évolué ces dernières années… et notre équipe R&D contribue à sa progression de façon permanente.

Notre méthode nous permet de traiter des enregistrements contenant du vocabulaire généraliste, mais également des termes plus spécifiques (technique, juridique, médical, etc.).

 Pour arriver au transcript final, le processus comprend 4 étapes :

1 | La Voice Activity Detection

Pour commencer, il s’agit d’identifier à quels moments de l’enregistrement quelqu’un parle, afin de découper la bande-son en segments. La machine va ensuite travailler sur chacun de ces segments.

2 | La Diarization

Il faut ensuite identifier les différents locuteurs qui s’expriment sur chaque segment, afin de rapprocher les segments d’un même orateur, et pouvoir attribuer correctement les prises de parole dans la transcription. Pour cela, la machine utilise différents moteurs, qui ont chacun été alimentés par des données spécifiques (langues, voix). Elle peut ainsi prendre en compte des subtilités de langage telles que les accents par exemple. Notez qu’à ce stade, nous restons dans un traitement « mathématique » des données.

3 | Le Decoding

Ce n’est qu’à ce moment que la notion de transcription fait son apparition. Une liste de syllabes (phonèmes) possibles est établie pour chaque segment audio. Pour l’instant, aucune phrase n’est écrite  il n’y a qu’une longue liste de possibilités, chacune ayant un score.

4 | Le Rescoring

L’ordinateur choisit, parmi tous les phonèmes et mots appris lors de son entrainement initial, ceux qui forment la phrase la plus probable (un peu comme un GPS identifie le meilleur trajet) . C’est cette phrase qu’il retranscrit dans son document.

 

Cette mécanique est appliquée sur l’ensemble des segments de l’enregistrement pour produire, in fine, la transcription complète.

À la fin de ce processus automatisé, le document peut être relu par nos équipes, comme pour un document Ubiqus classique  en plus de la vérification du contenu en tant que tel, le relecteur s’assure également de la bonne affectation des propos et de la mise en forme.

L’alliance de la technologie et du savoir-faire humain chez Ubiqus

Vous êtes habitué à la qualité des documents Ubiqus et l’idée de tester la transcription automatique vous tente ? Lancez-vous !
Le niveau de qualité standard en transcription automatique reste aussi élevé qu’en transcription classique. En effet, une fois la transcription automatique réalisée, une relecture « humaine » est effectuée… comme pour une transcription classique !

Les secteurs utilisant
les outils linguistiques technologiques

Découvrez les services linguistiques augmentés par la technologie, pour votre secteur d'activité.

Et si on parlait de votre besoin?

Des clients satisfaits
et qui le disent

X
accumsan nec et, dolor. vel, consequat. Aenean dapibus ut