Home Tecnologie Riconoscimento vocale automatico (ASR)
Riconoscimento vocale automatico (ASR)
Che cos’è il Riconoscimento vocale automatico?
Il Riconoscimento vocale automatico o Automatic Speech Recognition (ASR) è una tecnologia che permette di trascrivere i discorsi pronunciati oralmente.
Ubiqus utilizza una tipologia di ASR chiamata LVCSR (Large Vocabulary Continuous Speech Recognition), basata sul riconoscimento automatico di sequenze vocali brevi. Questa tecnologia consente di produrre trascrizioni di qualità sulla base di registrazioni audio di buona qualità. Negli ultimi anni la tecnologia ASR ha subito un processo di grande evoluzione e il nostro team di R&S contribuisce costantemente al suo sviluppo.
Questa tecnologia ci permette di trattare registrazioni vocali in cui viene utilizzato un linguaggio generico, ma anche settoriale (tecnico, giuridico, medico, ecc.).
Il processo che conduce alla trascrizione finale si articola in 4 fasi:
1 | Rilevamento della voce
La fase iniziale consiste nell’identificazione, all’interno della registrazione, dei momenti in cui qualcuno sta parlando, per suddividere la traccia audio in segmenti. Lo strumento lavora singolarmente su ciascuno di questi segmenti.
2 | Diarizzazione
Dopodiché, è necessario individuare i diversi oratori che intervengono nel discorso, in modo da raggruppare i segmenti dello stesso parlante e poter attribuire correttamente gli interventi. A tal fine, lo strumento utilizza diversi motori, ognuno dei quali viene alimentato con una serie di dati specifici (lingue, voci). Questa tecnologia è in grado di riconoscere ogni minimo dettaglio del linguaggio, come gli accenti. Fino ad ora, abbiamo eseguito un trattamento “matematico” dei dati.
3 | Decodificazione
Solo una volta raggiunta questa fase, inizia il processo di trascrizione vera e propria. Per ogni segmento vocale viene fatto un elenco di sillabe (fonemi) possibili. Fino ad ora, nulla è ancora stato scritto: c’è soltanto un lungo elenco di possibilità, a ognuna delle quali corrisponde un punteggio diverso.
4 | Ricalcolo
Tra tutti i fonemi e le parole registrati durante la fase di allenamento iniziale, il computer seleziona quelli che compongono la frase più probabile (un po’ come un GPS identifica il percorso migliore) . È questa frase che viene trascritta all’interno del documento.
Questo procedimento viene applicato a tutti i segmenti vocali della registrazione al fine di ottenere la trascrizione integrale.
Una volta terminato questo processo automatico, il documento può essere riletto dai nostri professionisti, secondo la procedura tradizionale: il rilettore non controlla solamente il contenuto ma si assicura anche della corretta attribuzione e formattazione dei discorsi.
La combinazione tra competenze tecnologiche e umane tipica di Ubiqus
I settori che utilizzano
le API di traduzione e i connettori
Finanza
• Traduzione classica
• Traduzione online
• Verbali e resoconti
Legale
• Traduzione giuridica
• Traduzione asseverata o giurata
• Traduzione legale online
Lusso
• Adattamento linguistico
• Adattamento grafico
• Revisione redazionale
Medico
• Traduzione specializzata
• Trascrizione medica
• Traduzione medica online
Lifestyle
• Sottotitolaggio di video promozionali
• Adattamento di packaging
• Traduzione di siti e-commerce
High-Tech e Media
• Traduzione online
• API e connettori di traduzione
• Localizzazione di contenuti video
• Traduzione ottimizzata per il web
Industria
• Traduzione tecnica
• Adattamento alle normative del vostro settore
• Verbali e resoconti delle vostre riunioni
Aeronautica
• Traduzione tecnica
• Interpretazione
• Verbali e resoconti di riunioni
Settore pubblico
• Redazione di verbali e resoconti
• Traduzione
• Interpretazione
E per quanto riguarda il vostro progetto?
I clienti affermano di essere soddisfatti