Scott Aaronson è un informatico e divulgatore scientifico molto noto negli Stati Uniti e non solo. Esperto di informatica teorica e in particolare di quantum computing, docente presso il MIT e poi all’Università del Texas, Aaronson ha voluto mettere alla prova GPT-4, ultima versione del modello generativo sul quale basa il suo funzionamento ChatGPT, proprio sui complessi argomenti a lui più cari.
In cosa consiste un esame di informatica quantistica
Il risultato è stato davvero incoraggiante: ChatGPT ha ottenuto la valutazione “B” nell’esame di informatica quantistica superandolo quindi senza la minima difficoltà.
Gli esami di quantum computing prevedono la valutazione delle conoscenze teoriche e pratiche dell’informatica quantistica: gli studenti vengono valutati sulla comprensione dei principi fondamentali della meccanica quantistica e delle loro applicazioni nell’informatica quantistica, nonché sulla capacità di utilizzare algoritmi quantistici per risolvere problemi specifici.
Gli esami di quantum computing possono includere domande teoriche che coprono argomenti come la notazione di Dirac, gli operatori quantistici, la decoerenza, la complessità computazionale quantistica e l’algoritmo di Grover. Possono anche prevedere la risoluzione di problemi pratici: gli esaminandi sono chiamati a implementare algoritmi quantistici su un simulatore o su un computer quantistico.
L’esame di quantum computing superato dal modello GPT-4
Basandosi sul contenuto delle dispense dell’esame di informatica quantistica elaborate dallo stesso Aaronson, il docente ha messo alla prova GPT-4 con risultati sorprendenti. Le risposte fornite dall’intelligenza artificiale sono state valutate utilizzando gli stessi criteri applicati per qualunque studente in carne ed ossa.
Aaronson e il collaboratore Justin Yirka spiegano di aver fornito a GPT-4 i problemi da risolvere ai fini dell’esame usando il formato LaTeX. LaTeX è un linguaggio di markup ampiamente utilizzato in ambito accademico per la preparazione di documenti scientifici e tecnici, come articoli, tesi, relazioni e libri. GPT-4 può infatti comprendere perfettamente LaTeX e quando c’erano circuiti quantistici da gestire, sia in input che in output, questi venivano elaborati usando qcircuit, anch’esso pienamente supportato da GPT-4.
Aaronson precisa che, per quanto di sua conoscenza, il testo dell’esame non è mai stato pubblicato su Internet e di conseguenza non dovrebbe mai essere apparso nei dati di addestramento di GPT-4.
GPT-4 si è mostrato davvero molto ferrato nel rispondere alle domande “vero/falso” e, addirittura, nei quesiti concettuali che sono quelli che portano gli studenti, di solito, a faticare di più. Il modello di OpenAI si è invece paradossalmente dimostrato più debole nelle domande di calcolo: qui GPT-4 sapeva che tipo di calcolo fare ma poi falliva nell’esecuzione. Aaronson aggiunge di non aver provato la nuova interfaccia di WolframAlpha che potrebbe migliorare le sue prestazioni su queste domande.
WolframAlpha è un motore di ricerca basato su linguaggio naturale sviluppato da Wolfram Research. Da fine marzo 2023, grazie all’integrazione di ChatGPT con WolframAlpha, è possibile ottenere riscontri molto più precisi e puntuali su quesiti tecnico-scientifici. ChatGPT può adesso fare appello ai “superpoteri computazionali” di Wolfram, come dicono gli autori del progetto.
GPT-4 ha insomma fatto segnare un punteggio pari a 73/100 che equivale a una solida valutazione “B”. Negli Stati Uniti, una valutazione B indica infatti un punteggio buono, conferma di una conoscenza adeguata dell’argomento oggetto di verifica. Il docente osserva che la media conseguita dagli studenti è 74,4, seppur dopo una selezione piuttosto intensa (alcuni studenti hanno dato forfait abbandonando prematuramente il corso…).
Aaronson ricorda inoltre che gli studenti devono frequentare il corso, misurarsi su test settimanali, seguire lezioni e orari piuttosto ferrei per poi presentarsi all’esame finale. Al contrario, GPT-4 ha “volato alla cieca”, basandosi sul volume di informazioni raccolte durante la fase di addestramento.
Nel lungo post del docente universitario si può verificare la lunga lista di domande che è stata presentata a GPT-4 insieme con le risposte via via fornite. Aaronson ricorda anche l’esperienza dell’amico economista Bryan Caplan che a una prima prova non è rimasto soddisfatto delle risposte fornite dal modello GPT di OpenAI. Caplan ha addirittura scommesso, sulla scorta del primo test, che nessuna intelligenza artificiale avrebbe ottenuto un punteggio A al suo esame di economia prima del 30 gennaio 2029.
In realtà GPT-4 ha poi ottenuto una valutazione A dopo soli 3 mesi da quella scommessa e lo stesso Caplan ha dovuto dichiarare di aver cambiato idea sulle abilità dei modelli generativi. L’economia è una cosa e il quantum computing un’altra ma a quanto pare GPT-4 è stato promosso anche sugli argomenti più complessi e meno documentati.