Whisperfile, Mozilla lavora sulla trascrizione audio gestita dall'IA

Mozilla

Mozilla, realtà principalmente nota per lo sviluppo del browser Firefox, ha annunciato un nuovo ambizioso progetto: Whisperfile. Si tratta di un’intelligenza artificiale sviluppata per trascrivere l’audio e ottenere testo puro. Il sistema poggia le sue fondamenta sulla tecnologia Whisper di OpenAI, volendo però rappresentare un’evoluzione significativa nel campo delle trascrizioni audio, offrendo una gamma di funzionalità avanzate che vanno oltre la semplice conversione da audio a testo (speech-to-text).

Compatibile con le piattaforme x86-64 e aarch64, Whisperfile si propone come una soluzione particolarmente attraente per sviluppatori e utenti che operano su sistemi differenti.

Una delle caratteristiche più interessanti di Whisperfile è la sua capacità di gestire una varietà di formati audio, tra cui WAV, MP3, OGG e Flac. Una volta avviato, Whisperfile trascrive automaticamente i file audio, fornendo il testo corrispondente con un codice cromatico che indica il livello di precisione stimato in termini di riconoscimento vocale. Lo schema visivo è particolarmente utile per identificare rapidamente le parti della trascrizione che potrebbero richiedere una revisione manuale.

Traduzione e trascrizione multilingue con Whisperfile

Oltre alla trascrizione, Whisperfile mette a disposizione anche funzionalità di traduzione, con la capacità di convertire l’audio in un testo redatto in un’altra lingua.

Un’abilità che si rivela estremamente utile in tutti quei contesti in cui la comprensione di lingue diverse può rappresentare una sfida. Con Whisperfile, Mozilla propone una soluzione che aiuta a superare le barriere linguistiche.

Coerentemente con la filosofia di Mozilla, Whisperfile è un progetto open source. Il codice sorgente, insieme alle istruzioni di installazione, è disponibile sul repository GitHub ufficiale.

Come funziona Whisperfile

Per chi desidera esplorare in prima persona le funzionalità di Whisperfile, è possibile avviare un server HTTP eseguendo un semplice comando.

La guida guida completa all’uso e alla configurazione di Whisperfile, è disponibile a questo indirizzo.

Il primo passo per utilizzare Whisperfile consiste nel procurarsi i pesi del modello, che rappresentano il cuore del sistema di trascrizione. Per iniziare rapidamente, è consigliabile utilizzare i pesi quantizzati del modello “tiny”, che offrono un buon equilibrio tra velocità e accuratezza.

Dopo aver scaricato i pesi, il passo successivo è costruire il software Whisperfile a partire dal codice sorgente. È necessario avere installato GNU Make mentre per le piattaforme come Windows e macOS Mozilla fornisce un eseguibile precompilato.

Non ancora sufficientemente maturo

Whisperfile rappresenta un potente strumento per la trascrizione audio, con la flessibilità di adattarsi a vari formati audio e modelli. Al momento, il progetto si rivolge agli “specialisti”. Più avanti potrebbe essere reso maggiormente accessibile da una platea di utenti più ampia. Specie se Mozilla deciderà di integrare le funzionalità di Whisperfile in Firefox, in un componente aggiuntivo per il browser o in un nuovo progetto “ad hoc”.

Inoltre, gli esempi si focalizzano sulla lingua inglese mentre non sono ancora disponibili gli strumenti per lavorare, ad esempio, con l’italiano.