GitHub Copilot non viola il copyright secondo i giudici USA

Il tema della tutela del copyright in relazione all’utilizzo delle intelligenze artificiali (IA), o meglio dei moderni modelli generativi, resta sempre di scottante attualità. Il fatto che le aziende impegnate nel fornire strumenti e servizi basati sull’IA utilizzino anche contenuti soggetti al diritto d’autore per addestrare i modelli è ormai un segreto di Pulcinella. OpenAI, tuttavia, ha sempre rispedito al mittente ogni critica sostenendo che nell’ambito dell’intelligenza artificiale il problema del copyright non esiste.

La tesi affermata da OpenAI è che le informazioni protette dalle normative vigenti sul diritto d’autore non sono utilizzate così come sono. Ad esempio, non sono affatto memorizzate o stivate tal quali in un database. Sono infatti sottoposte a un processo di analisi da parte del modello che le usa per “imparare” e stabilire legami tra token (che non necessariamente sono parole). Quest’attività consente di estrarre anche il significato e “comprendere” la semantica di frasi, paragrafi e interi testi di dimensione variabile. Abbiamo spiegato il funzionamento dei Large Language Models (LLM) in un altro articolo.

L’origine della class action intentata contro GitHub Copilot

A novembre 2022 fu avviata una class action contro GitHub, Microsoft e OpenAI. L’accusa rivolta alle tre aziende era quella di aver addestrato Copilot utilizzando il sorgente del codice open source pubblicato sulla piattaforma GitHub. Per realizzare Copilot, quindi, non si sarebbero rispettate le licenze previste dai singoli sviluppatori e non si sarebbero citati i singoli programmatori, come invece prevedono le condizioni utilizzate nell’ambito dei vari progetti.

I promotori della class action, che sostenevano come GitHub Copilot copiasse codice senza autorizzazione, si dichiararono preoccupati dal fatto che porzioni del loro sorgente aperto, protetto da copyright, potessero essere fornite da GitHub ad altri sviluppatori, senza il dovuto riconoscimento e senza rispettare le condizioni delle licenze originali.

GitHub Copilot, lo ricordiamo, è uno dei primi strumenti presentati per assistere gli sviluppatori nella generazione di codice a partire da richieste avanzate il linguaggio naturale. Più di recente, la piattaforma di hosting software di proprietà di Microsoft ha presentato anche GitHub Workspace, una soluzione progettata per gestire l’intero ciclo di vita del software.

Gran parte delle accuse rivolte a Copilot sono decadute

L’accusa aveva promosso ben 22 differenti contestazioni nei confronti di “Microsoft e soci”. Gran parte delle accuse sono state nel frattempo respinte, con il giudice statunitense Jon Tigar che ha adesso rigettato praticamente tutte le imputazioni. Ne restano in piedi soltanto 2 ma “il grosso” è strato del tutto stralciato.

Una delle accuse più rilevanti, adesso respinte, riguardava la violazione di una particolare sezione del Digital Millennium Copyright Act (DMCA), ovvero delle disposizioni USA a tutela del diritto d’autore. Secondo la normativa, non è consentito rimuovere senza permesso informazioni cruciali in materia di copyright, come l’autore del codice di programmazione e i termini di utilizzo.

I promozione dell’azione contro GitHub Copilot sostenevano che l’assistente per la generazione di codice rimuoveva queste informazioni offrendo frammenti di codice agli utenti. Il giudice ha tuttavia stabilito che il codice prodotto da Copilot non era identico al lavoro protetto da copyright, quindi le restrizioni di legge non risultavano applicabili.

Tigal ha citato una perizia che afferma come Copilot raramente produca simile a quello ospitato su GitHub. Quando ciò avviene è perché il modello è sollecitato proponendo lunghi estratti di codice molto simili ai dati di addestramento.

Il futuro della vertenza

Mentre GitHub si dichiara soddisfatta della decisione maturata in tribunale, affermando di credere fermamente nel ruolo dell’IA per trasformare le modalità con cui si sviluppano software, la parte sconfitta può ancora modificare e ripresentare alcune delle accuse. Al momento, rimangono in piedi due reclami principali: una violazione della licenza open source e una violazione del contratto.

Le parti si accusano reciprocamente di non aver fornito tutti i documenti necessari durante il processo.