Poco dopo Natale è arrivata la notizia della causa avviata dal New York Times contro OpenAI e Microsoft per presunta violazione del diritto d’autore. Secondo l’accusa, la società guidata da Sam Altman avrebbe utilizzato milioni di articoli della testata in versione digitale per addestrare i suoi modelli generativi. Un’operazione effettuata senza alcun tipo di autorizzazione preventiva. Per questo motivo, il New York Times batte cassa e chiede a OpenAI milioni di dollari di risarcimento.
OpenAI contesta tutte le accuse e spiega il suo punto di vista
Con l’arrivo del nuovo anno, dopo le festività, OpenAI ha voluto rispondere pubblicamente alle eccezioni sollevate dal New York Times mettendo in chiaro una serie di punti ritenuti cruciali per la corretta comprensione delle tematiche sul tavolo.
L’azienda premette che i suoi strumenti di intelligenza artificiale hanno come obiettivo primario quello di aiutare utenti privati, professionisti e aziende a risolvere problemi altrimenti gestibili con difficoltà. Non si contano gli utenti individuali che giornalmente si servono dei modelli OpenAI; inoltre, milioni di sviluppatori e oltre il 92% delle aziende presenti nella lista Fortune 500 stanno innovando proprio usando le soluzioni della società di Altman.
OpenAI afferma di collaborare con numerose realtà che si occupano di editoria online offrendo opportunità concrete per migliorare i loro flussi di lavoro. L’azienda ha anche incontrato diverse organizzazioni e associazioni di settore per esplorare nuovi scenari, discutere preoccupazioni e fornire soluzioni. Nella nota diramata da OpenAI si aggiunge, inoltre, che gli editori hanno eventualmente la possibilità di migliorare le abilità dei modelli aggiungendo contenuti storici non pubblicamente disponibili. Si tratta di un modo per estendere le abilità dell’IA e, ad esempio, ottenere risposte con ChatGPT eventualmente contenenti riferimenti al materiale fornito “in privato”.
L’addestramento dei modelli di intelligenza artificiale usando dati pubblici non vìola il copyright
Con un refrain di quanto già ripetutamente sostenuto in passato, OpenAI ricorda che a suo avviso l’addestramento dei modelli generativi non costituisce violazione del diritto d’autore, anche se si utilizzano dati pubblicati da terzi sul Web. Si tratterebbe di fair use, un utilizzo lecito suffragato da precedenti ampiamente accettati.
D’altra parte, il modello generativo non memorizza i dati prodotti da soggetti terzi così come sono. Non esiste un database. Piuttosto, il modello stabilisce interconnessioni tra parole e frasi che consentono, grazie a un approccio stocastico, di risalire al significato delle varie espressioni. L’intelligenza artificiale, insomma, crea relazioni tra termini e concetti che contraddistinguono ogni linguaggio. Lo spieghiamo anche nell’articolo in cui motiviamo il nostro scetticismo nei confronti dell’ipotetico progetto OpenAI Q Star.
Ed è proprio per questo che le soluzioni di intelligenza artificiale sono sempre più al servizio delle decisioni aziendali. Perché aiutano ad estrarre valore dai dati di ogni singola impresa.
Per evitare il crawling dei contenuti pubblicati sui propri siti Web, tuttavia, OpenAI fornisce uno strumento, semplice da implementare. Basta aggiungere un paio di righe al file robots.txt
e il gioco è fatto: in questo modo si blocca qualsiasi tentativo di scansione da parte dei bot OpenAI che poi trasferiscono i contenuti reperiti in rete ai modelli di IA. L’azienda afferma che lo stesso New York Times fa uso di questo approccio già a partire da agosto 2023.
Regurgitation: cos’è. OpenAI ammette che è un problema
Vi ricordate quando, a fine novembre 2023, un gruppo di ricercatori Google obbligò ChatGPT a visualizzare dati di addestramento? Si trattò di un incidente piuttosto “scomodo” per OpenAI: in quell’occasione, infatti, materiale protetto da copyright – evidentemente raccolto durante la fase di addestramento del modello – fu restituito, tal quale, agli utenti del chatbot.
OpenAI ammette oggi che il problema noto come regurgitation esiste e consiste nella memorizzazione involontaria di dati di addestramento. Secondo la società è qualcosa che si verifica raramente ma i tecnici OpenAI stanno lavorando per evitare che queste situazioni possano ripetersi, attraverso l’adozione di misure preventive.
Con l’occasione, tuttavia, OpenAI sottolinea che l’uso intenzionale di tecniche per manipolare il comportamento dei modelli al fine di provocare fenomeni di regurgitation è inappropriato e contrario ai termini di utilizzo.
Per OpenAI, il New York Times avrebbe omesso dettagli importanti
Nella nota pubblicata in queste ore, OpenAI afferma che le discussioni con il New York Times sembravano progredire costruttivamente fino all’ultima comunicazione del 19 dicembre 2023. Le trattative si concentravano sullo sviluppo di una partnership ad alto valore per la visualizzazione in tempo reale dei contenuti dell’editore all’interno di ChatGPT. L’avvio della vertenza legale si sarebbe rivelata come una “sorpresa” davvero inattesa per OpenAI.
Inoltre, la società sostiene che il New York Times non ha condiviso esempi specifici di regurgitation, nonostante la disponibilità e l’impegno di OpenAI dimostrati per risolvere questo tipo di problematica. E, per tornare alla tesi descritta in precedenza, OpenAI avanza l’ipotesi che New York Times abbia manipolato i prompt per ottenere alcuni esempi di regurgitation che non rappresentano l’uso tipico o consentito della tecnologia basata sull’intelligenza artificiale.
OpenAI conclude rimarcando come, secondo le sue valutazioni, la causa avviata dal New York Times sia priva di merito. La società resta disponibile per riprendere una partnership costruttiva e gioca anche la “carta emozionale”. Segnala uno storico pezzo del quotidiano USA risalente addirittura al 1958: fu allora che, con taglio decisamente pionieristico, la testata pubblicò un approfondimento sulla prima rete neurale funzionante. Inoltre, ricorda il ruolo del New York Times a difesa dei principi sanciti dal Primo Emendamento della Costituzione degli Stati Uniti d’America.