Oggi esistono diversi benchmark appositamente sviluppati per mettere alla prova l’abilità dei modelli di intelligenza artificiale generativa. In alcuni casi, le varie soluzioni ottengono risultati incoraggianti, giudizi sul piano dell’accuratezza che lasciano davvero di stucco. Scale AI, in collaborazione con il Center for AI Safety (CAIS), ha presentato un benchmark innovativo denominato Humanity’s Last Exam, concepito per mettere alla prova i limiti della base di conoscenza sulla quale possono contare le moderne AI. Risultato? Nessun modello esistente ha superato il 10% di accuratezza, dimostrando quanto sia difficile e ambiziosa la nuova sfida per l’intelligenza artificiale. E quanto le esternazioni sul sorpasso del cervello umano da parte dell’intelligenza artificiale siano da prendersi sempre con le pinze.
L’ultimo test dell’umanità è un benchmark fuori scala
Gli ideatori di Humanity’s Last Exam mettono in evidenza come il test comprenda 3.000 domande che spaziano dalla matematica alle scienze umane e naturali, con un mix di quesiti a risposta multipla e domande a risposta breve.
Ogni quesito è frutto di un’accurata selezione da parte di docenti universitari e matematici di alto livello, con un livello di complessità paragonabile a quello degli esami di dottorato. I contenuti proposti ai modelli generativi sono insomma estremamente specializzati e permettono di spingere l’AI oltre i limiti attuali.
Risultati e performance
I test condotti su alcuni dei modelli più avanzati, tra cui GPT-4o di OpenAI, Claude 3.5 Sonnet di Anthropic e Gemini 1.5 Pro di Google, non hanno decretato un vero vincitore.
Sebbene la migliore performance sia quella fatta registrare da GPT-4o, il LLM (Large Language Model) ha comunque ottenuto un punteggio massimo dell’8,3%, evidenziando le profonde lacune che lamentano anche i sistemi sulla carta più sofisticati.
Secondo Dan Hendrycks, co-fondatore del CAIS, il progresso delle AI è così rapido che i benchmark tradizionali non sono più sufficienti per valutarne le capacità. Un esempio emblematico è il benchmark MATH, introdotto nel 2021, su cui all’epoca nessun modello superava il 10%, ma che oggi vede alcuni modelli svettare con una precisione superiore al 90%.
Hendrycks prevede che entro un anno emergeranno sistemi capaci di superare il 50% di accuratezza anche nell’Humanity’s Last Exam.
L’importanza della ricerca aperta
Scale AI ha annunciato che intende rendere pubblici i dataset utilizzati nel benchmark per la comunità scientifica, favorendo l’avanzamento nella comprensione delle limitazioni dell’AI e nella creazione di modelli più robusti. Summer Yue, direttrice della ricerca presso Scale AI, ha definito questo benchmark come un “test definitivo”, concepito per spingere all’estremo le potenzialità degli attuali modelli.
L’esistenza di test così rigorosi sottolinea come il futuro dell’intelligenza artificiale non dipenda solo dall’addestramento su grandi quantità di dati, ma anche dalla capacità di affrontare problemi complessi e interdisciplinari che richiedono intuizione, ragionamento avanzato e comprensione profonda. Un primo passo in questa direzione è arrivato con il reasoning, e le differenze si vedono. Soprattutto quando il modello si trova ad affrontare problemi logico-matematici. Ma siamo ancora soltanto agli inizi.
Credit immagine in apertura: iStock.com – Chayada Jeeratheepatanont