ChatGPT diventa motore di ricerca: cosa può succedere

ChatGPT

Fino a quando, a metà maggio 2024, OpenAI non ha annunciato l’ultima versione del suo modello generativo multimodale (GPT-4o), in tanti ipotizzavano che l’azienda guidata da Sam Altman fosse in procinto di entrare nel mercato dei motori di ricerca. L’indizio arrivava dall’attivazione di un dominio di terzo livello (search.chatgpt.com) che sembrava far pensare all’inizio di un’importante trasformazione per il chatbot ChatGPT. E che invece, pur risultando effettivamente definito a livello di record DNS, mostra ancora un errore 404 se visitando da browser Web.

Di per sé ChatGPT è un’applicazione che rende possibile per gli utenti interagire con il sottostante modello generativo. I possessori di un account free sono autorizzati a servirsi del modello GPT-3.5 ma hanno modo di mettere alla prova, per un numero limitato di richieste giornaliere, anche il più recente GPT-4o.

Perché ChatGPT non è un motore di ricerca

Illustrando il funzionamento dei LLM (Large Language Models) abbiamo messo in evidenza come i moderni modelli generativi siano addestrati su un corpus di testi voluminoso. Le fonti possono essere le più diverse: articoli vari, libri, contenuti delle pagine Web e altro ancora. Durante la fase di addestramento, il modello riesce a creare collegamenti tra le strutture del linguaggio e, come conseguenza diretta, costruisce relazioni tra i vari concetti.

L’architettura dei Transformer e il concetto di attenzione sono essenziali nel funzionamento dei moderni LLM, come appunto i modelli GPT (Generative Pre-trained Transformer) utilizzati da OpenAI. L’attenzione consente al modello di dare più peso a determinate parti del testo in base al contesto circostante. Si tratta di un approccio che aiuta il modello a catturare relazioni complesse all’interno dei testi.

La fase di addestramento cristallizza le “conoscenze” del modello generativo

Evidentemente, la qualità delle fonti utilizzate nella fase di addestramento è funzionale per la produzione di risposte pertinenti ed accurate, prodotte sulla base dell’analisi dell’input (prompt dell’utente) e sulla previsione dei token successivi nelle sequenze testuali. I token possono essere considerati come parole, porzioni di esse o anche singoli caratteri/simboli.

Risulta evidente che i modelli GPT sui quali fonda il suo funzionamento ChatGPT, “congelano” le conoscenze del chatbot a una certa data. La data corrisponde al momento in cui gli ingegneri di OpenAI hanno costruito il modello sottostante, addestrandolo con i dati provenienti dal Web e da molte altre fonti.

Provate a chiedere a ChatGPT quanto segue: “a quando si ferma la conoscenza di ChatGPT?“. Selezionando il modello GPT-3.5, si otterrà una risposta del genere: “la mia conoscenza attuale si ferma a gennaio 2022, ma continuo ad apprendere nuove informazioni e ad essere aggiornato con il passare del tempo“.

In un altro articolo abbiamo visto anche gli errori che commette ChatGPT proprio in forza della sua natura di applicazione basata su di un modello stocastico.

Come può cambiare ChatGPT

Da quanto osservato in precedenza, appare chiaro che – evidentemente – ChatGPT non è e non può essere un motore di ricerca. Mentre può fornire informazioni basate sulla sua “conoscenza pregressa” (sempre tra virgolette perché le relazioni sviluppate tra i token sono frutto di valutazioni matematico-probabilistiche…), ChatGPT non è progettato per eseguire ricerche in tempo reale su Internet come fa, invece, un motore di ricerca (quale può essere Google Search).

Alla radice del funzionamento di ChatGPT c’è un modello generativo precedentemente addestrato, non uno spider o crawler che scandaglia continuamente il Web alla ricerca di nuove informazioni da esaminare, indicizzare e proporre agli utenti in risposta a una query di ricerca. La differenza, insomma, è abissale.

Tuttavia, da qui a dire che ChatGPT non possa integrare le sue “conoscenze” con informazioni acquisite in tempo reale, eventualmente rielaborate dal modello GPT, ce ne passa. ChatGPT permette di farlo già adesso, almeno per i sottoscrittori dei piani a pagamento Plus ed Enterprise.

Guardate le note di rilascio di ChatGPT: a metà ottobre 2023, OpenAI evidenziava come la funzionalità di Web browsing fosse uscita dalla fase di beta testing. In altre parole, seguendo le istruzioni indicate, è possibile attivare la ricerca di informazioni sul Web. L’idea, però, è al momento quella di appoggiarsi a motori di ricerca preesistenti (come Microsoft Bing), non a un indice creato da un crawler “made-by-OpenAI”. In futuro, chissà.

Come funziona la ricerca sul Web integrata in ChatGPT e negli altri chatbot

Ad oggi, dicevamo, né ChatGPT né altri chatbot concorrenti sono in grado di effettuare ricerche sul Web autonomamente. In alcuni casi, ci si appoggia a motori di ricerca già esistenti per analizzare le risposte più in linea con il prompt dell’utente quindi si esaminano le risposte ricevute (contenuto delle SERP, Search Engine Results Page), si passano i testi al sottostante modello generativo, che poi a sua volta si occupa di comporre un output argomentato e contestualizzato.

Lo fanno le versioni Plus ed Enterprise, lo fa ad esempio Perplexity e lo fa Phind. Perplexity, ad esempio, interrogato sull’argomento, risponde così: “Perplexity utilizza strumenti di ricerca web come Google Search per ottenere informazioni fresche e aggiornate sulle varie tematiche. Questo consente di raccogliere dati da diverse fonti e di creare testi che riflettano le ultime tendenze e notizie“.

Phind Ask, d’altra parte, decide automaticamente quando cercare in Internet ulteriore materiale, estendendo le informazioni rilevate attingendo alla “conoscenza” del sottostante modello generativo. Se è improbabile che la domanda avanzata dall’utente tragga vantaggio dai risultati della ricerca, Phind Ask evita di cercare sul Web. Se ne parla chiaramente in questo tutorial.

L’IA di Phind è peraltro particolarmente abile nel generare codice di programmazione in risposta a specifiche richieste degli utenti.

Per usare ChatGPT come motore di ricerca devono cambiare tante cose

Certo, la comparsa di un dominio come search.chatgpt.com, ha fatto volare con la fantasia. Al momento, però, nelle note di rilascio di ChatGPT non ci sono indizi circa le ambizioni da motore di ricerca del chatbot OpenAI.

Quali nuove funzionalità potrebbero allora essere attivate sul nuovo terzo livello search.chatgpt.com? L’opzione più ovvia è che ChatGPT migliori le sue abilità di ricerca Web appoggiandosi a motori di terze parti, e che quindi metta a disposizione queste novità al servizio degli utenti. D’altra parte, se si passa il contenuto di più pagine Web “fresche”, provenienti da qualunque fonte, già oggi ChatGPT è in grado di rielaborarle e fornire testi convincenti.

L’orientamento potrebbe essere quello di potenziare queste possibilità, introducendo i riferimenti ai siti Web dai quali le informazioni sono tratte. Esattamente come fanno Perplexity e Phind.

OpenAI stessa, comunque, ha un suo crawler che si presenta ai server Web come GPTBot. In un altro articolo abbiamo visto come bloccare GPTbot con l’uso del file robots.txt. In questo modo si attesta il diniego nei confronti di OpenAI per utilizzare le informazioni pubblicate sui propri siti come strumento per migliorare l’addestramento del modello.

Di fatto, quindi, OpenAI potrebbe guardare – in ottica futura – a un’attività di fine tuning dei suoi modelli GPT, abilitando un sistema che provveda a integrare le ultime risorse tratte dal Web con la base di conoscenze già acquisite in passato. Potrebbe davvero accadere? Certamente sì, ma ci saranno comunque dei rilasci periodici che corrisponderanno ad altrettanti aggiornamenti del modello.

Per ottenere informazioni davvero in tempo reale (o quasi), l’approccio di un motore di ricerca come Google Search o Bing non sembra accantonabile.