L’enorme richiesta di dati per l’addestramento dell’Intelligenza Artificiale sta creando situazioni borderline dove, molto spesso, diritti d’autore e privacy sono aspetti aggirati senza troppi complimenti. Secondo un’indagine di Proof News e Wired, questo fenomeno è più ampio di quanto si possa pensare.
Da quanto risulta dalla ricerca, infatti, alcuni dei colossi tecnologici alimenterebbero le proprie IA anche attraverso la trascrizione di video su YouTube, ovviamente senza il permesso dei creator che hanno realizzato i filmati. Stando ai dati raccolti nell’indagine i nomi coinvolti non sono da poco: si parla, infatti, di Apple, Nvidia, Anthropic e altre compagnie di grande portata.
Sono quasi 175.000 i filmati YouTube utilizzati per addestrare IA senza il consenso dei creator
Il tutto sarebbe avvenuto attraverso un set di dati chiamato YouTube Subtitles. Questo include la trascrizione testuale di quasi 175.000 video provenienti da 48.000 canali ma che, di fatto, non ha il permesso della piattaforma e degli youtuber per diffondere questi dati. Il set di dati in questione (denominato Pile) è stato creato da EleutherAI e solo una piccola parte di esso è costituita da testo estrapolato dai video di YouTube. Tra i tanti dati presenti, figurano anche articoli di Wikipedia e la trascrizione di discorsi del Parlamento europeo.
Secondo quanto emerso, i contenuti “saccheggiati” da YouTube riguardano alcuni dei creator più famosi al mondo, con diversi video trascritti dai canali di MrBeast e Marques Brownlee. Oltre a danneggiare i creator, il modus operandi di EleutherAI va contro i termini di servizio di YouTube, in cui viene chiaramente vietato lo scraping automatico dei video presenti sulla piattaforma.
EleutherAI, dal canto suo, sembra insistere sul fatto che la sua sia una missione per “democratizzare” l’accesso alle tecnologie dell’IA. Nonostante ciò, è più che probabile che YouTube e i creator intraprendano vie legali per tutelarsi. D’altro canto, la legislazione non è ancora adeguatamente sviluppata per gestire in modo equo il rapporto complicato tra IA e fonti da cui attingere per alimentare la stessa.