Whisper Large v3 di OpenAI è un sistema di riconoscimento automatico del linguaggio (ASR) addestrato su milioni di ore di parlato, con un’intensa attività di supervisione umana. Il modello, presentato a suo tempo dalla società di Sam Altman, è progettato per riconoscere, trascrivere e tradurre il linguaggio parlato, assicurando un’alta precisione e una grande facilità d’uso.
La comunità ha accolto Whisper con favore tanto che un gran numero di sviluppatori e di aziende lo utilizza per trascrivere tracce audio e video (ad esempio riunioni e interviste) oltre che come supporto per un vasto numero di applicazioni. Whisper Large v3 è supportato nella libreria Hugging Face Transformers, rendendo questo strumento ancora più accessibile e facilmente implementabile.
Il progetto Insanely Fast Whisper: come funziona
Su GitHub è nato il nuovo progetto Insanely Fast Whisper che consente di trascrivere ben 150 minuti di audio in meno di 100 secondi. I benchmark eseguiti su una GPU T4 di Google Colab sono eloquenti: i classici Transfomer impiegano oltre 31 minuti per trascrivere i 150 minuti di parlato registrato in digitale. Viceversa, con Insanely Fast Whisper, è possibile arrivare allo stesso risultato in circa 1 minuto e 38 secondi.
Dietro a queste performance da urlo ci sono alcune ottimizzazioni “vincenti” come l’utilizzo di flash-attn (Flash Attention 2) e del batch processing.
Nella trascrizione automatica dell’audio, l'”attenzione” è un meccanismo cruciale che determina su quali parti dell’input l’algoritmo dovrebbe concentrarsi ai fini della generazione del testo. Lo schema abituale implica un’analisi dettagliata di ogni elemento in input, rallentando il processo nelle situazioni in cui la sequenza in ingresso è particolarmente lunga. Si pensi ad esmpio ai file di audio di durata significativa. Flash Attention 2 rivoluziona questo paradigma introducendo un meccanismo più efficiente che permette al modello di “illuminare” solo le parti rilevanti dell’input, riducendo in modo netto il tempo necessario per l’analisi.
Il batch processing, o elaborazione a lotti, è poi una tecnica chiave nell’ottimizzazione delle prestazioni di Insanely Fast Whisper. Invece di elaborare un singolo elemento alla volta, il modello processa un gruppo (o batch) di elementi simultaneamente. Questa strategia permette di beneficiare del parallelismo supportato dai moderni processori grafici (GPU), di utilizzare la memoria in modo efficiente nonché di ridurre l’overhead.
Come utilizzare Insanely Fast Whisper dalla finestra del terminale
Per provare in prima persona le strabilianti prestazioni di Insanely Fast Whisper, si può utilizzare l’interfaccia a riga di comando (CLI, command line interface). L’installazione è molto semplice e si riduce all’istruzione seguente:
pipx install insanely-fast-whisper
L’analisi del file audio e la conseguente trascrizione del testo possono quindi essere invocate con il comando che segue:
insanely-fast-whisper --file-name <nomefile o URL>
Nel repository GitHub è disponibile anche il codice Python di esempio che consente di avviare l’elaborazione del file audio in ingresso da un’applicazione. L’utilizzo diretto della libreria Whisper da Python apre la strada a un ampio ventaglio di possibili personalizzazioni oltre a un’agevole integrazione nei propri progetti software.
Insanely Fast Whisper è progettato per sfruttare al massimo le GPU Nvidia, garantendo prestazioni ottimali su hardware dedicato. L’interfaccia CLI è attualmente compatibile solo con GPU Nvidia, ma il team di sviluppo sta lavorando per estendere il supporto ad altre architetture.
Il futuro della trascrizione audio
Insanely Fast Whisper permette di sperimentare nell’ambito della trascrizione audio. Con tempi di risposta così rapidi, si possono immaginare applicazioni in tempo reale in settori come la traduzione automatica, la sottotitolazione in diretta e molto altro ancora.
La combinazione di potenti modelli di trasformazione, ottimizzazioni intelligenti e facilità d’uso, posizionano Insanely Fast Whisper come uno strumento di riferimento per professionisti, ricercatori e appassionati di tecnologia.