Julia Reda è un’europarlamentare tedesca che abbiamo più volte conosciuto in passato. Da sempre attenta rispetto alle problematiche collegate con la tutela del copyright e forte promotrice dell’opensource e del software libero: basti ricordare il convinto supporto di iniziative come FOSSA (Free and Open Source Software Audit) nate per individuare e risolvere nuove problematiche di sicurezza all’interno dei programmi a sorgente aperto.
Nei giorni scorsi abbiamo parlato di GitHub Copilot, un innovativo strumento digitale che sfrutta l’intelligenza artificiale per generare automaticamente il codice necessario a qualunque sviluppatore. Grazie a Copilot è possibile evitare di perdere tempo nel generare codice di frequente utilizzo lasciando quindi tutto “il lavoro sporco” proprio all’intelligenza artificiale.
Il codice, ottenibile in molteplici linguaggi ugualmente supportati, può essere prodotto da Copilot anche a partire da un commento: l’utente indica cosa desidera ottenere e l’intelligenza artificiale pensa a generare codice funzionante e subito utilizzabile nelle proprie applicazioni.
L’intelligenza artificiale Copilot, realizzata con il contributo dei tecnici Microsoft, è stata addestrata e continua a esserlo utilizzando codici e testi disponibili pubblicamente.
Dal momento che Copilot utilizza numerosi repository GitHub che contengono materiale distribuito usando licenze copyleft (ad esempio GNU GPL) da più parti si sono levate molte critiche. Copilot non è infatti rilasciato a sua volta con una licenza copyleft e anzi dopo il lancio iniziale e conclusa la fase di test potrebbe essere offerto come servizio a pagamento.
“Ciò che è sorprendente nel dibattito attuale è che gli appelli per l’interpretazione più ampia e rigorosa possibile delle norme sul diritto d’autore arrivano addirittura dall’interno della comunità del software libero“, osserva la Reda.
Le licenze copyleft sono uno strumento ingegnoso per promuovere il libero scambio della cultura e spingere l’acceleratore sull’innovazione. Le opere con licenza copyleft possono essere copiate, modificate e distribuite da parte di chiunque a patto che ogni copia o opera derivata possa a sua volta essere riutilizzata alle stesse condizioni di licenza. Questo crea un circolo virtuoso grazie al quale sempre più innovazioni sono aperte al grande pubblico. Il diritto d’autore, che è stato concepito per garantire l’esclusività sulle creazioni dell’ingegno, viene in questo caso utilizzato per evitare che l’accesso alle opere derivate sia in qualche modo limitato.
Attività come text & data mining non possono costituire una violazione del diritto d’autore
Reda spiega che limitarsi a scansionare il codice di un’applicazione senza un’esplicita autorizzazione degli autori non rappresenta di per sé una violazione di alcun diritto. “Se vado in una libreria, prendo un libro dallo scaffale e comincio a leggerlo, non sto violando alcun copyright“, scrive ancora l’europarlamentare. “I politici e i tribunali hanno riconosciuto da tempo che la tecnologia digitale sarebbe completamente inutilizzabile se ogni copia tecnica richiedesse un permesso. Altrimenti, le persone che ascoltano la musica con apparecchi acustici digitali dovrebbero prima acquisire una licenza per essa. I fornitori di Internet dovrebbero ottenere una licenza per ogni opera concepibile protetta dal diritto d’autore che i loro clienti si scambiano l’un l’altro“.
Nel 2001, quindi ormai vent’anni fa, l’Unione Europea ha ritenuto accettabili tutti gli atti di copia temporanea da intendersi come parte integrante di un processo tecnico. E ciò a dispetto delle focose proteste dell’industria dell’intrattenimento di allora.
Con lo slogan “The Right to Read is the Right to Mine“, diverse associazioni impegnate in attività di ricerca con sede in Europa richiesero un permesso esplicito per il cosiddetto “text & data mining” cioè per l’archiviazione permanente di opere protette da copyright allo scopo di analisi automatizzate.
La campagna ha avuto successo è le attività di text & data mining sono quindi autorizzate. I detentori dei diritti che non vogliono che le loro opere protette da copyright vengano utilizzate per il data mining devono specificarlo chiaramente (usando ad esempio il file robots.txt
utilizzato dai principali motori di ricerca per il Web).
Secondo la legge europea sul copyright, quindi, lo scraping di codice con licenza GPL o di qualsiasi altro lavoro protetto da copyright è da ritenersi pienamente legale e ciò indipendentemente dalla licenza utilizzata. Negli Stati Uniti, lo scraping rientra nella disciplina del fair use, come stabilito in una nota vicenda che ha coinvolto Google Books.
Il codice generato automaticamente da una macchina non può essere considerato come un’opera derivata
GitHub Copilot è stato da molti considerato come uno strumento realizzato in violazione degli altrui diritti perché il sistema non solo usa codice realizzato da soggetti terzi, per larga parte pubblicato con licenza GPL, per “allenarsi” ea produrre sequenze di codice perfettamente funzionanti ma usa le stesse informazioni per generare quelle che vengono considerate “opere derivate”.
Secondo Reda il ragionamento è estremamente pericoloso: da un lato si suggerisce che anche riprodurre i più piccoli estratti di opere protette costituisce una violazione del copyright. Ciò non è ammissibile altrimenti sorgerebbero continuamente nuove dispute se due o più sviluppatori utilizzassero lo stesso codice elementare nei rispettivi programmi.
“I brevi frammenti di codice che Copilot riproduce dai dati acquisiti in fase di training difficilmente raggiungono la soglia di originalità“.
Anche la tesi che porta a considerare il codice prodotto da Copilot come opere derivate parte dal presupposto che una macchina possa produrre opere. “Questo presupposto è sbagliato e controproducente. La legge sul copyright si è sempre applicata solo alle creazioni intellettuali: dove non c’è il creatore, non c’è opera“, commenta ancora Reda.
Il codice generato da una macchina come nel caso di Copilot non è affatto un’opera secondo la legge sul diritto d’autore quindi non può essere nemmeno un’opera derivata.
Coloro che sostengono che l’output di Copilot sia un’opera derivata hanno assunto questa posizione semplicemente perché sperano di vincolare ai termini della licenza GPL quegli stessi output. Se quest’obiettivo venisse davvero raggiunto si otterrebbe lo sgradevole effetto collaterale che tutti gli altri contenuti generati dall’intelligenza artificiale sarebbero d’ora in poi protetti dal diritto d’autore.
Cosa impedirebbe allora a un’etichetta musicale di addestrare un’intelligenza artificiale con il suo catalogo musicale per generare automaticamente ogni brano immaginabile e proibirne l’uso da parte di terzi? Cosa impedirebbe agli editori di generare milioni di frasi e privatizzare il linguaggio nel processo?
La Reda osserva che alcune aziende stanno già facendo pressione per estendere le tutele garantite dalle norme sul copyright alle opere generate dalle macchine. I principali beneficiari sarebbero evidentemente le grandi corporazioni tecnologiche che si trovano nella posizione migliore per sviluppare e scalare le applicazioni di intelligenza artificiale. La Reda osserva insomma che quando si parla di copyright è sempre bene muoversi con i proverbiali piedi di piombo e che non è mai conveniente lanciarsi in mosse avventate.