I cosiddetti large language models (LLM) stanno avendo un impatto davvero significativo sulle applicazioni per l’intelligenza artificiale. Si tratta di modelli estremamente potenti che possono essere utilizzati per gestire un ampio ventaglio di attività linguistiche partendo dalle istruzioni fornite da ciascun utente.
Il mondo accademico, le organizzazioni senza scopo di lucro e i laboratori di ricerca delle aziende più piccole hanno difficoltà a creare, studiare o persino utilizzare LLM: solo pochi team a livello industriale dispongono delle risorse necessarie per trarne vantaggio.
Circa un anno fa oltre 1.000 ricercatori volontari si sono uniti per formare il progetto chiamato BigScience coordinato dalla startup Hugging Face utilizzando i finanziamenti del governo francese.
All’interno del Centro nazionale francese per la ricerca scientifica, alla periferia di Parigi, un supercomputer ha impiegato 117 giorni per partorire un nuovo LLM che è stato battezzato BLOOM e che i ricercatori sperano rappresenti un allontanamento radicale dal modo con cui solitamente vengono sviluppati i progetti che integrano funzioni di intelligenza artificiale.
A differenza di altri modelli linguistici di grandi dimensioni più famosi come GPT-3 di OpenAI e Google LaMDA, BLOOM (acronimo di BigScience Large Open-science Open-access Multilingual Language Model) è progettato per essere il più trasparente possibile, con i ricercatori che condividono i dettagli sui dati a partire dai quali è stato addestrato, le sfide che si sono presentate nel suo sviluppo e il modo con cui ne sono state valutate le prestazioni. OpenAI e Google non hanno condiviso il codice delle rispettive soluzioni né reso disponibili al pubblico i loro modelli. BLOOM vuole quindi essere completamente diverso rispetto a ciò che già esiste: l’idea è quella di democratizzare l’accesso alla tecnologia per l’intelligenza artificiale rendendola disponibile ai ricercatori di tutto il mondo il mondo.
Con 176 miliardi di parametri (variabili che determinano come i dati di input vengono trasformati nell’output desiderato) è più esteso rispetto a GPT-3 e per lingue come lo spagnolo e l’arabo BLOOM è il primo modello LLM di queste dimensioni. BLOOM è in grado di generare testo in 46 linguaggi naturali e 13 linguaggi di programmazione.
La semplicità di accesso al modello è il suo più grande punto di forza: ora che BLOOM è stato ufficialmente presentato chiunque può scaricarlo e metterlo alla prova sul sito Web di Hugging Face.
Gli utenti possono scegliere tra varie lingue quindi digitare richieste da inviare a BLOOM per svolgere attività come scrivere ricette o poesie, tradurre o riassumere testi o scrivere codice di programmazione. Gli sviluppatori possono utilizzare il modello come base per creare le proprie applicazioni.
Modelli potenti come GPT-3, LaMDA e adesso BLOOM producono testo che si legge come se lo avesse scritto un essere umano oppure codice di programmazione perfettamente funzionante hanno un enorme potenziale per cambiare il modo con cui ogni giorno elaboriamo i dati e li trasformiamo in informazioni di valore.
BLOOM può essere usato per creare chatbot, per cercare informazioni, moderare contenuti online, riassumere libri o generare passaggi di testo completamente nuovi.
Non si tratta però di strumenti esenti da problemi: i vari modelli hanno una naturale tendenza a produrre contenuti “tossici”: il loro utilizzo, quindi, non può prescindere da una serie di cautele.
“Un nuovo grande modello linguistico non cambierà il corso della storia“, ha osservato Teven Le Scao, ricercatore di Hugging Face. “Ma avere un buon modello di linguaggio aperto su cui le persone possono effettivamente fare ricerca ha un forte impatto sul lungo termine“.
BigScience ha svolto un lavoro “fenomenale” nel costruire una comunità attorno a BLOOM e l’approccio che poggia su solide basi etiche oltre che su una governance intelligente è garanzia di successo. Il più grande contributo di BigScience potrebbe finire per non essere BLOOM in sé bensì i numerosi progetti di ricerca in cui sono coinvolti i suoi volontari.