AGI, cos'è un'intelligenza artificiale generale

Spieghiamo cos'è un'AGI, intelligenza artificiale generale, e perché questo concetto è al centro di polemiche infinite. Davvero AGI può rappresentare una minaccia per l'umanità e quanto siamo lontani dalla sua realizzazione?

Un documento elaborato, firmato da ben 33 esperti del settore e reso pubblico a fine ottobre 2025 cerca di proporre una definizione efficace di Intelligenza Artificiale Generale (AGI): un sistema AI che uguaglia o supera la versatilità cognitiva e la competenza di un adulto ben istruito. Per trasformare la definizione in un criterio valutabile, gli autori adottano la teoria CHC (Cattell-Horn-Carroll) della psicometria umana e creano una batteria di prove che scompone l’intelligenza generale in 10 domini cognitivi misurabili.

Il lavoro svolto ha permesso la generazione di un “AGI Score” da 0% a 100%, un punteggio che – applicato ai modelli AI contemporanei – valuta quanto essi siano vicini al concetto di AGI. Il risultato sono profili e giudizi piuttosto altalenanti: complessivamente, OpenAI GPT-4 ≈ 27% e GPT-5 ≈ 57% in termini di AGI Score.

Nelle accuse lanciate a fine febbraio 2024 da Elon Musk nei confronti di OpenAI e della sua dirigenza, che hanno portato ad avviare una vera e propria vertenza legale, l’imprenditore – tra le altre cose – ha espresso le sue preoccupazioni sulla presunta “grave minaccia per l’umanità” che rappresenterebbe un’AGI e su come la società guidata da Sam Altman sia ormai diventata una “filiale di fatto a codice chiuso” di Microsoft.

Lo studio condotto da Dan Hendrycks et al. mira proprio a dare una definizione circostanziata e attendibile di un’AGI, verificando allo stesso tempo se l’attuale intelligenza artificiale generativa sia davvero inquadrabile con questa definizione.

Cos’è un’AGI, intelligenza artificiale generale

A marzo 2023, OpenAI rilasciava GPT-4, una delle più recenti iterazioni del suo modello generativo. Fu presentata come una vera e propria pietra miliare: vanta una finestra di contesto molto più ampia (fino a 32.000 token), presenta notevoli miglioramenti nella comprensione del linguaggio naturale e nella generazione di testo, grazie alla maggior numero di parametri e all’ampio set di dati di addestramento utilizzato; inoltre, è un modello multicanale, in grado di gestire in input e produrre (output) informazioni provenienti da diverse modalità, come le immagini.

La linea evolutiva ha poi proseguito dai 32.000 token e dalla multimodalità di GPT-4, all’omnidirezionalità in tempo reale e multi-lingua di GPT-4o (maggio 2024), alla potenza tecnica specializzata di GPT-4.1 (marzo-aprile 2025, inclusi modelli mini e nano), fino alla soluzione unificata e più avanzata di GPT-5 (agosto 2025), che estende multimodalità e capacità real-world in ambienti complessi e aziendali.

In generale, un’AGI sarebbe in grado di eseguire compiti intellettuali complessi, apprendere da esperienze diverse, adattarsi a nuovi contesti e svilupparsi in modo autonomo. Come suggerisce il nome, un’AGI ambisce a essere generalmente applicabile anziché limitata a una singola funzione o dominio.

Scintille di AGI già con GPT-4

Proprio ad aprile 2023, fu un team di ricerca Microsoft a parlare di “scintille di AGI” in un dettagliato documento tecnico incentrato su GPT-4. Questo a conferma che il comportamento di GPT-4 mostrava già allora primi “bagliori” di un’AGI. Il documento firmato Microsoft è diventato una delle principali leve utilizzate da Musk per avanzare contestazioni, a sostegno della sua tesi.

Il gruppo di esperti guidato da Sébastien Bubeck, 38enne ex docente presso la Princeton University (USA), iniziò a testare una prima versione di GPT-4 nell’autunno del 2022, mesi prima che la tecnologia fosse rilasciata al pubblico. Microsoft aveva infatti investito 13 miliardi di dollari su OpenAI e i suoi esperti ottennero così l’accesso esclusivo, in anteprima, alle tecnologie sottostanti che alimentano i sistemi di intelligenza artificiale dell’azienda di Altman.

Leggendo il documento di taglio accademico, si apprende di come Bubeck e i suoi fossero rimasti meravigliati dei risultati forniti da GPT-4. Il modello è riuscito a comporre con successo una complessa dimostrazione matematica, ha generato un codice informatico in grado di disegnare un unicorno e ha spiegato il modo migliore per impilare una raccolta di articoli di diversa forma e caratteristiche. Il team Microsoft si chiese quindi se fossero davvero di fronte a una nuova forma di intelligenza artificiale.

D’altra parte, il documento di Microsoft è ad oggi citato in più di 5.000 lavori scientifici ed è uno dei documenti sull’intelligenza artificiale che hanno riscosso maggior successo negli ultimi 5 anni.

Ha però dovuto affrontare diverse critiche da parte di esperti, inclusi alcune provenienti da altri tecnici interni a Microsoft, preoccupati del fatto che il documento di 155 pagine mancasse di rigore e alimentasse una certa frenesia sull’intelligenza artificiale basata sul marketing.

Come definire un’AGI nel 2025?

Gli autori dello studio di Dan Hendrycks et al. partono da un problema semplice ma cruciale: il termine AGI è vago e viene usato in modi molto differenti. Per recuperare rigore, come accennato nell’introduzione, ricorrono alla teoria CHC — un modello consolidato in psicometria che classifica abilità cognitive in fattori ampi e stretti — e adattano i test psicometrici umani al contesto AI.

L’idea è che se un’AI supera o eguaglia un adulto su un insieme ben bilanciato di abilità, può essere considerata un’AGI.

I dieci domini cognitivi (la spina dorsale della definizione di AGI)

La proposta divide l’intelligenza in 10 componenti principali, ciascuna pesata ugualmente (10% del punteggio totale). Per ogni componente sono elencate abilità strette e prove esemplificative:

  1. General Knowledge (K) — conoscenze di senso comune, scienze, storia, cultura.
  2. Reading & Writing (RW) — decodifica, comprensione testuale, scrittura e uso corretto della lingua.
  3. Mathematical Ability (M) — aritmetica, algebra, geometria, probabilità, calcolo.
  4. On-the-Spot Reasoning (R) — ragionamento immediato: deduzione, induzione, teoria della mente, pianificazione, adattamento.
  5. Working Memory (WM) — mantenimento e manipolazione di informazioni contenute nella memoria di lavoro (test testuali, uditivi, visivi e multimodali).
  6. Long-Term Memory Storage (MS) — capacità di apprendere, consolidare e memorizzare nuove informazioni nel lungo termine (associativa, narrativa, trascrizioni).
  7. Long-Term Memory Retrieval (MR) — fluidità e precisione nel recuperare ricordi; include la misura delle allucinazioni.
  8. Visual Processing (V) — percezione, ragionamento visivo, generazione di immagini e video, scansione spaziale.
  9. Auditory Processing (A) — codifica fonetica, riconoscimento vocale, ritmo, giudizio musicale, qualità della voce sintetica.
  10. Speed (S) — velocità operativa nelle attività cognitive semplici (riconoscimento, confronto, reazioni).

L’intero impianto è progettato per essere multimodale (test che coinvolgono testo, immagini, audio) e per evidenziare non solo capacità “di fatto” (knowledge) ma anche la “macchina cognitiva” sottostante (memoria, ragionamento, velocità).

AGI Score e profili cognitivi

Il documento propone che ogni dominio contribuisca con 10 punti percentuali al totale (risultato finale: 0–100%). Gli autori raccomandano però di non limitarsi al solo punteggio aggregato, perché una media può nascondere “colli di bottiglia” critici (per esempio memoria a lungo termine nulla rende un sistema inadeguato, nonostante un alto punteggio aggregato).

Come anticipato in precedenza, questi sono i risultati conseguiti da due dei più conosciuti e apprezzati modelli di OpenAI:

  • GPT-4: totale ≈ 27% con punti forti in conoscenza generale ma zeri in memoria a lungo termine e deficit in ragionamento on-the-spot.
  • GPT-5: totale ≈ 57%, miglioramenti significativi in molte aree ma ancora lacune importanti, soprattutto in storage di memoria a lungo termine (MS = 0%).

Il giudizio finale mette in evidenza un profilo che spicca per eccellenze in alcuni domini (es. K, RW, M) e debolezze nette in altri (es. MS, talvolta V e A). Gli autori sottolineano inoltre che le prestazioni elevate in certi compiti possono essere illusorie se ottenute tramite workaround.

I modelli, ad esempio, usano contesti lunghi (prompt giganteschi) come surrogato della memoria persistente. È un approccio inefficiente e non scala per memorie che si accumulano nell’arco di settimane e mesi. Servirebbe un modulo di apprendimento continuo: ad esempio, aggiornamenti mirati dei pesi o adattatori persistenti.

Il ricorso a motori di ricerca o database esterni riduce le allucinazioni per fatti noti, ma non sostituisce una memoria esperienziale integrata e dinamica. La dipendenza da un meccanismo RAG (Retrieval-Augmented Generation) può nascondere l’assenza di una rappresentazione interna affidabile.

Esempi pratici di test

Nel testo sono proposte molte prove esemplificative per ciascun dominio: domande di fisica e biologia per K; esercizi di aritmetica, algebra e geometria per M; problemi di pianificazione e test di teoria della mente per R; dual-n-back e compiti di video Q&A per WM; esercizi di richiamo di sequenze, story/movie recall per MS; compiti di fluency e liste per MR; captioning, rilevamento di anomalie nei video, mental rotation per V; trascrizione e riconoscimento ritmico per A; compiti di rapidità, reazione e pointer fluency per S.

Sono tutti esempi che servono a definire compiti valutabili e replicabili.

Limiti, avvertenze e problemi aperti

Gli autori dello studio indicano inoltre, chiaramente, limiti metodologici e filosofici:

  • Non esaustività: la definizione esclude alcune dimensioni e non è culturalmente neutra (molti esempi sono in inglese).
  • Peso e bilanciamento: assegnare 10% a ciascun dominio è una scelta metodologica, ma si possono immaginare altri pesi sensati.
  • Contaminazione dei dati: alcune aziende impegnate nello sviluppo di modelli AI possono “addomesticare” i risultati addestrando i modelli su dati identici ai test; per questo si raccomanda l’uso di approcci che siano in grado di assicurare valutazioni robuste.
  • Pericolo di interpretare male il dato aggregato: un AGI Score elevato potrebbe nascondere lacune critiche (es. memoria a lungo termine nulla) che rendono il sistema non-generalista nella pratica.

Siamo davvero di fronte a qualche AGI?

Quando i ricercatori Microsoft hanno provveduto alla stesura del loro documento, hanno parlato chiaramente di un “primo contatto con un sistema AGI“. Alcuni membri del team, incluso Eric Horvitz, Microsoft chief scientist, egli stesso co-autore dello studio, non erano d’accordo con questa caratterizzazione. GPT-4, insomma, è ben lontano dal fare tutto ciò che il cervello umano può mettere in pratica. E lo studio elaborato da Hendrycks con l’apporto di numerose “menti”, lo dimostra in maniera lampante.

Tra gli autori del documento pubblicato a ottobre 2025, che vuole fissare una definizione di AGI, ci sono anche alcune figure che hanno firmato la moratoria sul blocco dello sviluppo delle superintelligenze. Ciò conferma che l’obiettivo non è ostacolare lo sviluppo dell’AI ma definire regole certe e sicure, un perimetro all’interno del quale sia possibile muoversi senza correre il rischio – nel lungo termine – di danneggiare le persone in carne ed ossa.

AGI e cervello umano

Ma il funzionamento del cervello umano è deterministico? Quindi, come può un’AGI replicarlo davvero? I meccanismi alla base della mente umana sono ovviamente legati a doppio filo con l’attività cerebrale, spiegabile attraverso processi neurologici. Un approccio che supporti l’idea del funzionamento deterministico del cervello, presuppone che lo stato cerebrale influisca direttamente sullo stato mentale e sulle decisioni. Le sinapsi tra neuroni trasmettono segnali elettrici in modo deterministico, in base alle leggi della fisica. Si tratta di pattern, quindi, che sembrano seguire leggi deterministiche.

D’altra parte, ci sono anche aspetti probabilistici. Ad esempio, il rilascio di neurotrasmettitori può essere influenzato da vari fattori, e la plasticità sinaptica (la capacità delle sinapsi di cambiare la loro forza nel tempo) può essere influenzata da eventi casuali e stimoli ambientali.

Gli studi sull’argomento sono numerosi e complessi, anche perché chiamano in causa concetti filosofici, neuroscientifici e psicologici. In generale, comunque, accanto a un approccio deterministico, regolato dalle leggi del mondo fisico, c’è il cosiddetto libero arbitrio ovvero la possibilità di compiere scelte libere da parte di ogni singolo individuo.

Credit immagine in apertura: iStock.com – Black_Kira

Ti consigliamo anche

Link copiato negli appunti