Il futuro delle soluzioni di intelligenza artificiale (AI) è sempre più al centro dell’attenzione: lo dimostra il contenuto di un presunto documento interno di Google che è trapelato online in queste ore e che è stato subito messo ai raggi X su SemiAnalysis.
La premessa del documento è che mentre OpenAI e Google continuano a correre per costruire i modelli linguistici più potenti, i loro sforzi vengono rapidamente eclissati dal lavoro svolto nella comunità open source. Nel documento, condiviso da anonimo su un server pubblico di Discord, è stato indicato da più parti come autentico e solleva tanti temi interessanti sui prossimi sviluppi in tema di intelligenze artificiali.
Secondo l’opinione di un dipendente dell’azienda di Mountain View, almeno stando a quanto viene riportato da una fonte anonima, l’AI open source supererà sia Google che OpenAI. Queste soluzioni “aperte” starebbero infatti divenendo sempre più competitive rispetto alle soluzioni proposte dalle aziende più grandi migliorando a un ritmo molto più rapido rispetto a quello fatto segnare da realtà come Google e OpenAI. Non solo. Le tecnologie open source sono in grado di personalizzare i modelli linguistici in poche ore su hardware progettati per utenti “non-business”, quindi con specifiche tutt’altro che avanzate. La leva utilizzata sarebbe LoRA, una soluzione sviluppata da Google stessa che permette di adattare i modelli alle esigenze specifiche degli utenti senza dover utilizzare hardware costoso o dedicato.
“Sebbene i nostri modelli mantengano ancora un leggero vantaggio in termini di qualità, il divario si sta colmando in modo sorprendentemente rapido. I modelli open source sono più veloci, più personalizzabili, più privati e più capaci. In ambito open source si stanno facendo grandi cose con hardware da 100 dollari e 13 miliardi di parametri mentre noi lottiamo con investimenti da 10 milioni di dollari e 540 miliardi di parametri. E lo stanno facendo in settimane, non mesi“, si legge nel documento che descrive il carico di innovazione introdotto dalla comunità open source dopo il rilascio del modello LLaMA di Meta a marzo 2023.
“Molte delle nuove idee provengono da persone comuni. La barriera all’ingresso nel campo dell’IA in termini di formazione e sperimentazione è scesa drasticamente. Oggi basta il lavoro di una sola persona, una serata di tempo e robusto laptop“.
Nel testo apparso in rete si fa presente inoltre che Google dovrebbe diventare leader nella comunità open source e cooperare con gli sviluppatori anziché ignorarne le “spinte”. L’azienda guidata da Sundar Pichai dovrebbe ad esempio pubblicare i pesi dei modelli per le varianti ULM più piccole, anche se ciò comporta ovviamente la perdita di controllo sui modelli stessi. Si dice che questo compromesso è inevitabile se si vuole guidare l’innovazione e non solo controllarla.
Nella modellizzazione del linguaggio naturale, le varianti ULM (Unified Language Model) sono un approccio che utilizza un unico modello per gestire diverse varianti della lingua, ad esempio varianti regionali o colloquiali. Per mettere a punto gli ULM vengono usate tecniche di machine learning avanzate, come l’addestramento su grandi quantità di dati in lingua naturale e l’uso di reti neurali a più livelli, per fornire una rappresentazione più accurata e flessibile della lingua.
Va detto che quanto riportato nel documento balzato agli onori delle cronache rappresenterebbe il punto di vista di un dipendente Google, la cui identità non viene svelata, e può non collimare affatto con la valutazione dei vertici della società.