Trascrizione audio in testo, con la massima accuratezza grazie a Scribe

Le tecnologie speech-to-text ossia le soluzioni che permettono di riconoscere il parlato e convertirlo in testo esistono da una vita. Nelle trascrizioni audio in testo, tuttavia, la qualità dei risultati lascia spesso molto a desiderare. Il fatto è che i modelli più datati si basano su algoritmi di corrispondenza fonetica o reti neurali meno avanzate, con tassi di errore più elevati, soprattutto in scenari con rumore di fondo o accenti diversi. Modelli come Scribe di ElevenLabs, appena presentato, utilizzano deep learning e Transformer, garantendo un minor Word Error Rate (WER), spesso inferiore al 5% nelle lingue principali.

Cos’è e come funziona Speech, la soluzione ASR di ElevenLabs

ElevenLabs è una startup fondata da Piotr Dombkowski, ingegnere ex Google, e da altri collaboratori che di recente ha ottenuto un ulteriore finanziamento da 180 milioni di dollari. La società è specializzata nella progettazione e nello sviluppo di soluzioni audio governate dall’AI.

Così, il nuovo motore Scribe è presentato come il modello di trascrizione (ASR, Automatic Speech Recognition) più evoluto e accurato in assoluto, al momento disponibile sul mercato. Progettato per affrontare la complessità dell’audio nel mondo reale, Scribe supporta 99 lingue, fornendo trascrizioni dettagliate con timestamp a livello di parola. Scribe consente anche di segmentare la registrazione e attribuire ogni parte del discorso alla persona che sta parlando. Grazie alla struttura dell’output ben organizzata, Scribe facilita l’integrazione in diverse applicazioni.

Prestazioni di Scribe: benchmark e precisione

L’affidabilità e la precisione di Scribe sono state validate attraverso test sui benchmark FLEURS e Common Voice. Rispetto ai principali modelli concorrenti, tra cui Gemini 2.0 Flash, Whisper Large V3 e Deepgram Nova-3, Scribe si posiziona costantemente in testa per accuratezza.

Stando ai risultati condivisi, il modello registra il più basso tasso di errore nella trascrizione automatica, con un’accuratezza del 98,7% per l’italiano, 96,7% per l’inglese e livelli simili in altre 97 lingue.

Uno dei punti di forza di Scribe è la sua capacità di ridurre drasticamente gli errori nelle lingue tradizionalmente meno servite dai modelli ASR. In questo modo, Scribe ambisce a diventare una tecnologia ASR più accessibile su scala globale.

Integrazione e funzionalità Avanzate

Scribe è già disponibile per gli sviluppatori tramite la Speech-to-Text API (Application Programming Interface), che fornisce trascrizioni strutturate in formato JSON con funzionalità avanzate.

Come accennato in precedenza, infatti, Scribe può riconoscere e separare i diversi interlocutori rilevati nella registrazione, annotare riferimenti temporali a livello di ogni singola parola, rilevare elementi come risate, pause e rumori di fondo.

Gli sviluppatori di ElevenLabs aggiungono che è in fase di realizzazione una versione a bassa latenza di Scribe, ottimizzata per le applicazioni in tempo reale. L’obiettivo è facilitare l’utilizzo di Scribe in contesti come la sottotitolazione live e gli assistenti vocali.

Come provare subito Scribe

Oltre all’integrazione via API, Scribe è accessibile direttamente dalla dashboard di ElevenLabs, cliccando su Speech-to-Text nella colonna di sinistra.

Trascrizione parlato e conversione in testo

La semplice interfaccia consente di caricare il file audio o il video contenente il parlato da riconoscere automaticamente e convertire in testo, specificare la lingua in cui si sviluppa la conversazione (Scribe può stabilirlo autonomamente) e il numero di persone che partecipano. Anche qui, si può lasciare selezionata l’opzione Detect. Attivando l’opzione Tag audio events, Scribe aggiunge un’etichetta in corrispondenza dei momenti più rilevanti individuati nella registrazione.

Abbiamo “dato in pasto” a Scribe, per finalità di test, la registrazione di un’intervista piuttosto lunga, della durata di oltre 45 minuti. Il modello di ElevenLabs è riuscito a riconoscere correttamente ogni singola parola evidenziando le incertezze nei dialoghi, le pause, le parole non correttamente pronunciate e tutto ciò che può avvenire durante una discussione o un confronto a più voci, anche molto concitato.

Fino al 9 aprile 2025, l’utilizzo di Scribe è completamente gratuito per tutti. Non è escluso che ElevenLabs possa estendere ulteriormente il periodo di prova.