OpenAI ha utilizzato una combinazione di tecniche avanzate e risorse di calcolo di alto livello per la fase di addestramento dei suoi modelli generativi. Tra i meccanismi chiave utilizzati vi è l’impiego di grandi dataset: essi contengono testo da una vasta gamma di fonti, come libri, articoli, pagine Web, forum e altro ancora. L’uso di ampi dataset consente ai modelli di apprendere da una vasta quantità di dati al fine di sviluppare una “comprensione” approfondita della lingua e generare testo di qualità. OpenAI non ha mai nascosto il fatto di aver utilizzato le informazioni condivise pubblicamente sul Web e da oggi, grazie a GPTBot, è possibile sapere quando e come i sistemi di OpenAI stanno scandagliando i propri contenuti.
GPTBot: cos’è e come funziona
Per raccogliere le informazioni che appaiono nelle pagine Web pubbliche, OpenAI utilizza un crawler o spider esattamente come fa qualunque motore di ricerca. Questo componente si occupa di seguire i link presenti nelle pagine Web andando alla ricerca di nuove risorse potenzialmente utili da acquisire e passare ai più recenti modelli di apprendimento automatico (GPT, Generative Pre-trained Transformer) così da migliorare le loro abilità.
E la proprietà intellettuale? OpenAI ha spiegato di adottare una politica rigorosa riguardo al web scraping. L’azienda fa sforzi per evitare la raccolta di dati protetti da copyright e rispetta le restrizioni imposte dai siti Web riguardo all’utilizzo dei loro contenuti.
La tesi difensiva, comunque, è che modelli come GPT-4 generano contenuti sfruttando la “conoscenza complessiva” maturata leggendo tutti i vari articoli pubblicati online. È un po’ come se un utente in carne ed ossa leggesse tutto quanto pubblicato sul Web e sfruttasse l’enorme mole di conoscenze così acquisite per creare contenuti nuovi, composti ripensando alle informazioni fatte proprie durante la lettura.
OpenAI ha pubblicato una pagina dedicata a GPTBot ossia al crawler che scansiona i contenuti delle pagine Web per migliorare poi le abilità di GPT e, in ultima analisi, di strumenti come ChatGPT.
Come bloccare o consentire l’attività svolta da GPTBot
Esattamente come avviene per i crawler dei vari motori di ricerca, la presenza sui propri siti Web di client che utilizzano la stringa user agent seguente sta a significa che è in corso un’attività di scansione da parte di OpenAI:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
Nella stringa si legge chiaramente il riferimento a GPTBot. OpenAI chiarisce che il contenuto delle pagine raccolte attraverso il crawler potrebbe essere sfruttato per “migliorare i modelli futuri“. In ogni caso un apposito filtro rimuove le fonti protette tramite paywall, quelle che raccolgono informazioni di identificazione personale o contengono testo che viola le norme stabilite da OpenAI.
robots.txt
contenuto nella directory radice del sito e aggiunga quanto segue:User-agent: GPTBot
Disallow: /
È ovviamente possibile consentire la scansione da parte di GPTBot di una parte del sito impedendo invece il crawling di aree specifiche. In questo caso basta utilizzare una sintassi simile a quella riportata di seguito:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
In questo caso, ad esempio, il permesso è accordato per la sottocartella del sito chiamata directory-1
mentre è negato per directory-2
.
Tanti considerano la pubblicazione delle informazioni sul crawler GPTBot una sorta di tentativo, per OpenAI, di “lavarsi la coscienza” quando ormai la maggior parte delle informazioni pubblicate online è già stata fattivamente utilizzata per costruire il funzionamento di GPT e degli strumenti derivati (ChatGPT e “soci”).
Quali strumenti utilizza OpenAI per addestrare i suoi modelli
Oltre a ricorrere a dataset di grandi dimensioni, per l’addestramento dei modelli OpenAI si serve di reti neurali profonde. I modelli GPT (Generative Pre-trained Transformer) sfruttano le architetture dei transformer, introdotti nel 2017 e rivelatisi davvero rivoluzioni nel campo del Natural Language Processing (NLP), per generare testo coerente e realistico.
Secondo OpenAI l’era dei modelli generativi di grandi dimensioni è già finita ma sono in tanti a scommettere che non sarà affatto così e che l’azienda guidata da Sam Altman stia preparando un GPT-5 capace di unire più tipologie di dati in input. L’idea è quella di portare all’estremo l’approccio multimodale che oltre al testo consentirà una gestione, da parte del modello generativo, di immagini, audio, video e altre tipologie di contenuto, in ingresso come in uscita. L’obiettivo è arrivare a una percezione di conoscenza in grado di mettere in correlazione diretta risorse completamente differenti per tipologia.
L’addestramento dei modelli generativi è computazionalmente intensivo e richiede enormi risorse di calcolo. OpenAI utilizza potenti processori grafici (GPU) e unità di elaborazione tensoriale (TPU) per accelerare il processo e ridurre i tempi di esecuzione.
Per sfruttare al massimo la potenza di calcolo delle GPU e TPU, OpenAI utilizza tecniche di parallelismo e distribuzione del calcolo su più dispositivi. Ciò consente di suddividere il carico di lavoro e accelerare l’addestramento dei modelli.
Infine, l’ottimizzazione dei parametri usati dai modelli generativi aiuta a massimizzare la probabilità di generare testo pertinente e di qualità. Questa fase richiede iterazioni ripetute per migliorare le prestazioni dei modelli.