Il modello Stable Diffusion riesce a generare immagini di qualità a partire da descrizioni testuali, anche complesse, e supporta l’upscaling avanzato.
Stable Diffusion è così abile perché il modello generativo è stato addestrato su centinaia di milioni di immagini di esempio raccolte dal Web. Alcune di esse erano immagini di pubblico dominio o erano state pubblicate con licenze permissive (i.e. Creative Commons). Altre non lo erano e gli artisti e i fotografi di mezzo mondo hanno già puntato il dito contro Stable Diffusion e Stability AI, società che ha creato il modello.
A gennaio 2023 tre artisti hanno intentato un’azione legale collettiva contro Stability AI mentre a febbraio e Diffusion. A febbraio, Getty Images – una delle maggiori agenzie di fotografia e videografia del mondo, pioniera nell’introduzione di modelli di business basati sulla distribuzione di immagini digitali attraverso la rete – ha intentato una seconda vertenza nei confronti di Stability AI sostenendo che Stable Diffusion avrebbe utilizzato senza alcuna autorizzazione 12 milioni di fotografie della sua collezione insieme alle didascalie e ai metadati associati.
Secondo tanti esperti, le intelligenze artificiali potrebbero presto trovarsi a navigare in acque inesplorate dovendo sostenere un crescente numero di contestazioni legali. In un altro articolo abbiamo visto le implicazioni legali di ChatGPT e di altri strumenti simili ma l’IA generativa nel suo complesso è una tecnologia così nuova che i giudici non si sono mai pronunciati sulle implicazioni in materia di copyright.
Alcuni esperti di diritto sostengono fermamente la tesi secondo cui la dottrina del “fair use” consentirebbe a Stability AI di utilizzare le immagini soggette a copyright. Ma ci sono anche forti argomentazioni che contestano questa valutazione.
Inoltre, se la dottrina del fair use esiste negli Stati Uniti e permette l’utilizzo di opere protette da copyright senza l’autorizzazione del titolare del copyright in determinate circostanze, in Europa non c’è un equivalente diretto quindi le considerazioni che possono emergere in tribunale potrebbero essere le più varie.
Va detto che il modello Stable Diffusion ha una dimensione di pochi gigabyte: non può contenere e infatti non contiene alcuna copia compressa delle immagini usate nella fase di addestramento.
Stable Diffusion, come tanti altri modelli, usa quella che si chiama rappresentazione latente dell’input fornito dall’utente: può essere pensata come una serie di numeri che descrivono il contenuto dell’immagine partendo dalle informazioni inserite in ingresso.
Una rappresentazione latente è quindi un vettore di numeri che rappresenta in modo compresso l’informazione rilevante di un’immagine, un testo, un suono o un altro tipo di input. Questi vettori sono spesso generati da una rete neurale, che impara a codificare i dati in un formato che può essere facilmente utilizzato per generare nuove istanze dell’input originale o per generare nuovi dati simili.
Le rappresentazioni latenti di Stable Diffusion catturano insomma l’“essenza” di un’immagine in modo che il modello possa generare nuove immagini che condividono alcune caratteristiche dell’originale.
Il meccanismo è splendidamente descritto nel testo “A walk through latent space with Stable Diffusion“.
L’addestramento di Stable Diffusion poggia sull’utilizzo di una coppia di reti progettate per descrivere in prima battuta un’immagine come rappresentazione latente e poi riprodurre l’immagine originale utilizzando solo la sua rappresentazione latente.
Il software valuta se stesso in base al successo o al fallimento nella generazione delle immagini e regola i suoi parametri in modo da svolgere un lavoro leggermente migliore sull’immagine successiva. Via via che il processo viene ripetuto, il sistema riesce ad affinarsi e a produrre risultati di qualità.
Il modello generativo si basa insomma sull’apprendimento delle caratteristiche generali di gatti, cani, fiori, monumenti, spiagge, dipinti e così via. Ma non dovrebbe imparare a ricostruire una particolare immagine di addestramento: questo fenomeno si chiama overfitting e gli esperti di intelligenza artificiale si adoperano per evitarlo.
Cosa c’entra tutto questo con il copyright? Le leggi a tutela del diritto d’autore proteggono l’espressione creativa: il dipinto di un gatto può essere quindi sicuramente difeso dalle norme sul copyright ma il gatto in sé non può essere oggetto di privativa da parte di nessuno: ha due occhi, quattro zampe, una coda e così via. Un modello capace di evitare il fenomeno dell’overfitting, quindi, è destinato a muoversi su “acque legali” molto più tranquille.
Stable Diffusion non è l’unico modello a essere portato in tribunale. Anche la class action contro Microsoft e GitHub Copilot si preannuncia molto “calda” e potenzialmente capace di gettare nel caos una fiorente nuova industria.
Se un accordo miliardario con aziende come Getty Images è sicuramente possibile, ad esempio per ottenere il diritto di usare le immagini a catalogo dietro versamento di royalty di importo forfettario, sembra utile ricordare quanto osservava tempo fa Julia Reda spiegando che GitHub Copilot non viola alcun diritto di terzi: “la legge sul copyright si è sempre applicata solo alle creazioni intellettuali: dove non c’è il creatore, non c’è opera“. Secondo la tesi di Reda quanto generato da una macchina, come avviene nel caso delle varie intelligenze artificiali, non è affatto un’opera secondo la legge sul diritto d’autore e non può essere nemmeno un’opera derivata.