Addestramento modelli generativi: non esiste il problema copyright per OpenAI

In un documento inviato all'Ufficio Brevetti, OpenAI spiega nel dettaglio perché l'addestramento dei modelli generativi utilizzando le informazioni condivise pubblicamente sul Web non costituisce reato né viola in alcun modo le normative a tutela del diritto d'autore.

L’addestramento dei modelli generativi, come quelli sviluppati da OpenAI, è un processo complesso che coinvolge l’utilizzo di grandi quantità di dati per insegnare al modello a “comprendere” e generare nuovi dati. La parola “comprensione” è una parola grossa perché, come sappiamo, i modelli generativi utilizzano un approccio probabilistico non deterministico tanto che sono spesso definiti pappagalli stocastici.

Nel suo articolo “How ChatGPT and Our Language Models Are Developed“, OpenAI fornisce dettagli sullo sviluppo dei modelli generativi, inclusi quelli che alimentano ChatGPT, e spiega come l’azienda affronta la questione del copyright e gestisce le informazioni personali.

La società guidata da Sam Altman spiega che i suoi modelli sono sviluppati e aggiornati usando varie fonti: informazioni pubblicamente disponibili su Internet, acquisite tramite licenza da terze parti, fornite dagli utenti o da personale specializzato.

OpenAI aggiunge che le informazioni accessibili pubblicamente in rete servono quindi per addestrare il modello ma ad essere evitate sono sempre quelle protette tramite paywall o quelle pubblicate, ad esempio, sul darkweb. Durante l’addestramento, il modello impara dalle informazioni lette, migliorando la sua capacità di prevedere parole accurate in determinati contesti. I modelli di apprendimento automatico sono composti da pesi o parametri, adattati durante l’addestramento. Il modello, tiene ancora a sottolineare OpenAI, non memorizza o copia le informazioni, ma le utilizza esclusivamente per adattare i pesi del modello.

OpenAI: l’addestramento dei modelli generativi è fair use

In un documento ufficiale inviato da OpenAI all’Ufficio Brevetti statunitense (USPTO), che sta indagando sull’ammissibilità dell’addestramento dei modelli basati sull’intelligenza artificiale con i contenuti pubblicati online e protetti dal copyright, l’azienda afferma che attività simili sono espressamente consentite dalle normative vigenti perché rientrano nella dottrina del fair use.

Cosa stabilisce il principio del fair use

Il fair use è un principio giuridico statunitense che consente l’uso di opere protette da copyright senza il permesso del detentore dei diritti in determinate circostanze. Questo uso equo è considerato ammissibile solo se soddisfa determinati criteri: ad esempio se l’utilizzo è a fini di critica, commento, insegnamento, ricerca. A definire il principio è il Copyright Act approvato Oltreoceano: la legge si basa sul bilanciamento di vari fattori.

Nell’Unione Europea, non esiste una dottrina del fair use come negli Stati Uniti. Gli Stati membri applicano invece un approccio basato su eccezioni e limitazioni della dottrina a tutela del diritto d’autore. I “casi specifici” ammessi variano da Paese a Paese, ma generalmente consentono utilizzi per scopi educativi, di ricerca, di critica e per l’elaborazione di notizie.

Va detto che nel 2007, il Parlamento europeo stabilì che la riproduzione in copia a fini di critica, recensione, informazione, insegnamento, studio o ricerca di materiale protetto dal diritto d’autore non dovesse essere qualificata come reato (all’articolo 3 della direttiva IPRED2 si parlava a suo tempo proprio di fair use).

La tesi avanzata da OpenAI è chiara: poiché la fase di addestramento dei modelli generativi “impara” dai dati preesistenti, ad esempio quelli condivisi pubblicamente sul Web, così come farebbe una persona in carne ed ossa, non c’è e non può esservi alcuni violazione di copyright.

Nel documento predisposto dalla società di Sam Altman si fa inoltre presente che l’incertezza legale sulle implicazioni del copyright nell’addestramento dei modelli di intelligenza artificiale tende ad aumentare significativamente i costi per gli sviluppatori di soluzioni basate sull’IA. Si auspica quindi che la questione possa essere finalmente risolta in modo autorevole e inoppugnabile così da favorire lo sviluppo e l’innovazione.

OpenAI porta una vertenza tra Authors Guild e Google a sostegno della sua tesi

Spulciando il contenuto del documento trasmesso a USPTO, si scopre che OpenAI cita il caso “Authors Guild contro Google” come esempio a sostegno delle sue tesi. Google aveva scannerizzato decine di milioni di libri senza il permesso degli autori per includerli in un database ricercabile online. Dieci anni fa è arrivata la storica sentenza che proclamò Google Books un servizio legittimo costruito sui principi del fair use.

I giudici stabilirono che il lavoro condotto da Google sulle opere originali coperte da copyright era “ampiamente trasformativo” e in quanto tale, le “citazioni” (snippet) fornite attraverso il servizio Google Libri (Books, in inglese) non potevano in alcun modo sostituire le pubblicazioni degli autori o causare un danno a questi ultimi e agli stessi editori.

Se Google ha ottenuto una piena assoluzione – è la posizione di OpenAI – figurarsi quali basi di contestazione possono esservi per modelli generativi che non memorizzano alcun contenuto di terze parti (non esistono database…).

I modelli generativi non conservano i dati in database e sfruttano le conoscenze acquisite per generare contenuti nuovi

OpenAI fa comunque riferimento a vertenze simili come “Authors Guild contro HathiTrust“, in cui la corte ha stabilito che la scansione di interi libri in un database ricercabile costituiva fair use.  E “snocciola” vertenze riguardanti l’uso di immagini digitali su larga scala, come “Perfect 10 contro Amazon.com” e “Kelly contro Arriba Soft“: l’uso di miniature delle immagini originali da parte dei motori di ricerca costituisce, anche in questo caso, fair use.

I vertici di OpenAI sostengono insomma che l’addestramento dei sistemi di IA è ancora più “trasformativo” degli esempi citati poiché si va ben oltre la mera conservazione del contenuto individuale delle opere, costruendo modelli evoluti a partire dall’intero “corpus” di addestramento e utilizzandoli per generare contenuti completamente nuovi. Gli esempi citati trattano principalmente dell’accesso a specifiche opere intellettuali e dell’ingegno, mentre i sistemi di IA vanno oltre, generando qualcosa di nuovo basato sui modelli di apprendimento precedentemente costruiti.

Ti consigliamo anche

Link copiato negli appunti