Home Technologies ASR Reconnaissance Automatique Parole
Automatic Speech Recognition (ASR)
Qu’est-ce que la reconnaissance automatique de la parole ?
La reconnaissance automatique de la parole ou Automatic Speech Recognition (ASR) est une technologie permettant de retranscrire à l’écrit les propos tenus à l’oral.
Ubiqus utilise un domaine précis de l’ASR qui est le LVCSR (Large Vocabulary Continuous Speech Recognition) : basée sur l’identification automatique de très courtes séquences audio, cette technologie permet de produire une transcription d’excellente qualité, sous réserve d’un audio enregistré de façon correcte. L’état de l’art de l’ASR a grandement évolué ces dernières années… et notre équipe R&D contribue à sa progression de façon permanente.
Notre méthode nous permet de traiter des enregistrements contenant du vocabulaire généraliste, mais également des termes plus spécifiques (technique, juridique, médical, etc.).
Pour arriver au transcript final, le processus comprend 4 étapes :
1 | La Voice Activity Detection
Pour commencer, il s’agit d’identifier à quels moments de l’enregistrement quelqu’un parle, afin de découper la bande-son en segments. La machine va ensuite travailler sur chacun de ces segments.
2 | La Diarization
Il faut ensuite identifier les différents locuteurs qui s’expriment sur chaque segment, afin de rapprocher les segments d’un même orateur, et pouvoir attribuer correctement les prises de parole dans la transcription. Pour cela, la machine utilise différents moteurs, qui ont chacun été alimentés par des données spécifiques (langues, voix). Elle peut ainsi prendre en compte des subtilités de langage telles que les accents par exemple. Notez qu’à ce stade, nous restons dans un traitement « mathématique » des données.
3 | Le Decoding
Ce n’est qu’à ce moment que la notion de transcription fait son apparition. Une liste de syllabes (phonèmes) possibles est établie pour chaque segment audio. Pour l’instant, aucune phrase n’est écrite il n’y a qu’une longue liste de possibilités, chacune ayant un score.
4 | Le Rescoring
L’ordinateur choisit, parmi tous les phonèmes et mots appris lors de son entrainement initial, ceux qui forment la phrase la plus probable (un peu comme un GPS identifie le meilleur trajet) . C’est cette phrase qu’il retranscrit dans son document.
Cette mécanique est appliquée sur l’ensemble des segments de l’enregistrement pour produire, in fine, la transcription complète.
À la fin de ce processus automatisé, le document peut être relu par nos équipes, comme pour un document Ubiqus classique en plus de la vérification du contenu en tant que tel, le relecteur s’assure également de la bonne affectation des propos et de la mise en forme.
L’alliance de la technologie et du savoir-faire humain chez Ubiqus
Le niveau de qualité standard en transcription automatique reste aussi élevé qu’en transcription classique. En effet, une fois la transcription automatique réalisée, une relecture « humaine » est effectuée… comme pour une transcription classique !
Les secteurs utilisant
les outils linguistiques technologiques
Découvrez les services linguistiques augmentés par la technologie, pour votre secteur d'activité.
Finance
Service de traduction de documents financiers
Comptes rendus et synthèses
Industrie
Aéronautique
Agroalimentaire
Automobile
Énergie
Juridique
Comptes rendus et synthèses
Traduction assermentée
Traduction juridique en ligne
Relations Sociales
Rédaction de PV de CSE
Solutions pour les CEE
Compte rendu de CSSCT
Lifestyle
Tourisme
Mode
Cosmétique
Ameublement
Médical
Rédaction de comptes rendus
Transcription médicale
Traduction médicale en ligne
Secteur public
Rédaction de comptes rendus et synthèses
Traduction pour le secteur public
Interprétariat
IT & media
Services linguistiques adaptés aux besoins des agences
Adaptation des formations e-learning
Luxe
Adaptation linguistique
Validation filiales
Gestionnaires dédiés
Et si on parlait de votre besoin?