Nella giornata di ieri si è diffusa la notizia dell’utilizzo da parte di alcuni colossi tecnologici del set di dati per addestrare l’Intelligenza Artificiale noto come Pile.
Il set, frutto del lavoro di EleutherAI, contiene tra i tanti dati anche la trascrizione di quasi 175.000 video YouTube, materiale che è stato incluso nel database senza alcun tipo di consento della piattaforma e tantomeno dei creator coinvolti.
Oggi è arrivata la puntualizzazione di Apple che, chiamata in causa, ha voluto puntualizzare la sua posizione. La compagnia di Cupertino ha voluto specificare come il set sia stato utilizzato per i modelli linguistici per la ricerca, non per Apple Intelligence. In molti, infatti, una volta sentito il nome di Apple coinvolto in questo caso hanno pensato alla sua nuova IA che, a quanto pare, non è però coinvolta in questo caso.
Caso Pile: nessun utilizzo del set dati per Apple Intelligence
Apple, ha creato un modello linguistico su larga scala per la ricerca (ovvero OpenELM) e nella documentazione del caso dichiara di aver utilizzato Pile per addestrare la stessa. Per la compagnia, questo LLM è stato creato per contribuire alla comunità di ricerca e promuovere lo sviluppo di modelli linguistici open source su larga scala. Apple Intelligence, di fatto, risulta essere un prodotto del tutto a parte.
Le aziende di un certo rilievo che utilizzano questo set di dati sono molti e, tra i tanti, includono Nvidia, Anthropic e Bloomberg. Oltre alle trascrizioni dei video YouTube, il set Pile contiene svariati tipi di materiale, spaziando da articoli Wikipedia a documenti del Parlamento europeo.
La raccolta di dati tramite scraping e la riproposizione di contenuti YouTube (anche sotto forma testuale) violano le politiche della piattaforma. Allo stesso tempo, sono molti gli youtuber di rilievo che, loro malgrado, con il loro lavoro hanno in qualche modo “contribuito” ad alimentare le IA delle suddette compagnie.