Fondata dai creatori di Apache Spark, un framework open source per l’elaborazione distribuita che consente di elaborare grandi quantità di dati su cluster di computer (Spark permette di lavorare in batch, in streaming e sviluppare progetti di machine learning su larga scala), Databricks fornisce una piattaforma di analisi e di intelligenza artificiale basata proprio su questo potente strumento. La piattaforma Databricks fornisce un ambiente di lavoro unificato per i data scientist, gli ingegneri dei dati e gli analisti aziendali per analizzare, elaborare e visualizzare grandi quantità di dati.
Databricks ha appena annunciato Dolly 2.0 ovvero il primo LLM (Large Language Model) open source ottimizzato (fine-tuned, come dicono gli sviluppatori) su un insieme di istruzioni generate da esseri umani che viene addirittura rilasciato senza restrizioni per la ricerca e gli utilizzi commerciali.
Un LLM è un modello linguistico di grandi dimensioni che utilizza il deep learning per generare testo in modo automatico: è di fatto un tipo di rete neurale artificiale che è stata addestrata su grandi quantità di dati di testo per imparare a generare testo in modo simile a come farebbe un essere umano.
I LLM generalmente generano testo di alta qualità in modo autonomo, con capacità che vanno dalla risposta alle domande alla creazione di storie, dalla traduzione automatica alle abilità di riassunto dei testi, anche molto lunghi. Uno degli esempi più significativi è GPT-4, ultima generazione del modello generativo proposto da OpenAI. Esistono però diverse alternative, tra cui anche LLaMa e Alpaca: il primo è stato concepito da Meta, il secondo ne è una versione ottimizzata e più “agile” ideata dagli accademici dell’Università di Stanford.
Il bello di Dolly 2.0, quindi, è che Databricks ha reso open source l’intero modello, incluso il codice per l’addestramento, i dataset e i “pesi” utilizzati: tutti i dati possono essere utilizzati anche per finalità e in ambienti commerciali. Ciò significa che qualsiasi organizzazione può creare, possedere e personalizzare potenti LLM personalizzati derivati da Dolly 2.0, in grado di comunicare con le persone, senza pagare per l’accesso via API e senza condividere dati con soggetti terzi.
Il repository GitHub di Dolly contiene 15.000 coppie di prompt-risposte di alta qualità, generate da tecnici in carne ed ossa: sono specificamente progettate per l’ottimizzazione delle istruzioni su modelli linguistici di grandi dimensioni. In questo senso Dolly 2.0 è instruction-tuned: addestrando il modello su un set di istruzioni specifiche per una determinata attività o compito, l’intelligenza artificiale sarà poi in grado di fare inferenza su quei dati e quindi fornire istruzioni dettagliate in risposta a una richiesta sullo specifico argomento per il quale è stata “ammaestrata”.
Il set di dati offerto adesso senza restrizioni da Databricks, è stato composto dal personale dell’azienda nei mesi di marzo e aprile 2023. La decisione di dare il via alla nuova avventura è scaturita in seguito al pressing degli utenti che hanno chiesto a gran voce la possibilità di usare un modello generativo in ambito commerciale.
“Per quanto ne sappiamo, tutti i modelli esistenti ottimizzati su istruzioni come Alpaca, Koala, GPT4All e Vicuna non possono essere sfruttati per usi commerciali“, si spiega da Databricks. “Il nostro è il primo set di dati open source generato dall’uomo specificamente progettato per far sì che modelli di linguaggi di grandi dimensioni mostrino la magica interattività di ChatGPT“.
Databricks non nasconde che il lavoro di ricerca svolto da OpenAI e condiviso online sia stato fonte d’ispirazione: gli ingegneri di OpenAI hanno infatti usato 13.000 coppie di domande-risposte per addestrare il modello GPT originale; l’azienda degli inventori di Apache Spark ne ha utilizzate, come detto in precedenza, 15.000. E non è stato un lavoro facile perché non è possibile sfruttare il lavoro altrui: sia per problemi di licenza, sia perché potrebbe verificarsi una contaminazione dei dati. Così, racconta Databricks, è stato indetto un concorso tra i 5.000 dipendenti dell’azienda invitandoli a generare coppie di quesiti-risposte per varie categorie di temi: il risultato è quello che viene adesso pubblicamente condiviso su GitHub.