OpenAI ha addestrato GPT-4 con oltre un milione di ore di video YouTube

Come vengono alimentati i modelli di Intelligenza Artificiale?

Questo argomento spinoso ha creato un dibattito a livello mondiale, costellato di cause e processi con al centro la delicata questione dei diritti d’autore. Quanto rivelato dal New York Times, non fa altro che alimentare questa discussione.

La prestigiosa testata giornalistica americana, coinvolta proprio in una delle azioni legali appena citate, ha riportato come OpenAI avrebbe utilizzato un apposito strumento, ovvero Whisper, per alimentare GPT-4 con oltre un milione di ore di video estratti da YouTube.

Secondo il NYT, la compagnia è ben consapevole di come questa pratica sia “legalmente discutibile”, pur ritenendo corretto il suo comportamento.

Addestramento GPT-4 con video YouTube: le dichiarazioni di OpenAI e della piattaforma

La risposta di OpenAI su questo caso è arrivata da Lindsay Held, portavoce della compagnia. La stessa ha dichiarato al sito TheVerge come l’azienda utilizzi diversi set di dati per alimentare GPT-4. Tra le diverse fonti figurano alcune pubbliche e altre private, ottenute attraverso apposite partnership.

Anche Matt Bryant, portavoce di Google, si è espresso in merito di questa situazione. Per Bryant la situazione non è così semplice, affermando che i Termini di servizio di YouTube vietano attività come scraping o download non autorizzato di video dalla piattaforma.

A rendere la situazione ancora più delicata sono le dichiarazioni di Neal Mohan, CEO di YouTube. Mohan ha affermato come OpenAI abbia utilizzato la piattaforma per alimentare Sora. Quale può essere una soluzione per addestrare le IA senza infrangere copyright?

La soluzione potrebbe essere quella proposta dal Journal. La testata, in un suo articolo, ha infatti parlato del cosiddetto curriculum learning. Si tratta di modelli di formazione basati su dati “sintetici”, creati a loro volta da altre IA.

Stando all’articolo è possibile creare una sorta di “Connessioni intelligenti tra concetti“, formando le IA con meno informazioni esterne. Nonostante quanto affermato, al momento si tratta ancora di semplice teoria e non esistono casi di queste filosofie applicate a modelli IA.

Al momento, l’alimentazione dell’IA rappresenta ancora un tema molto dibattuto, soprattutto nelle aule di tribunale.

Fonte: theverge.com