Il videogioco di Super Mario diventa un test per i modelli AI

Dopo la live in streaming su Twitch, che ha visto il modello AI Claude impegnato in una partita a Pokémon, alcuni ricercatori hanno voluto testare questa nuova tecnologia con il leggendario Super Mario Bros., ottenendo risultati a dir poco interessanti.

Lo scorso weekend, Hao AI Lab, un’organizzazione di ricerca presso l’Università della California di San Diego, ha messo alla prova alcuni tra i modelli AI più conosciuti e apprezzati. Nella sfida al celebre platform, a comportarsi meglio è stato Claude 3.7 di Anthropic, seguito dal suo predecessore, Claude 3.5.

Inaspettatamente, Gemini 1.5 Pro di Google e GPT-4o di OpenAI non si sono dimostrati modelli abili con il titolo Nintendo.

Le AI si sfidano a Super Mario: perché i modelli con ragionamento hanno avuto difficoltà?

Va detto che, per l’esperimento, non è stata utilizzata la versione originale di Super Mario Bros., ovvero quella del 1985.

Il gioco in questione, avviato tramite emulatore, è stato integrato con un framework, GamingAgent, che ha permesso all’AI di gestire il joypad come un qualunque videogiocatore in carne e ossa.

GamingAgent, sviluppato internamente da Hao, ha fornito all’AI istruzioni base su come affrontare le sfide presenti nel gioco, proponendo anche alcuni screenshot utili per comprendere meglio il software. L’AI ha quindi generato input sotto forma di codice Python per controllare Mario.

Per assurdo, i modelli “ragionanti” si sono dimostrati più impacciati e lenti, in quanto per loro stessa natura lavorano con tempistiche più lunghe di elaborazione. Quelli teoricamente meno evoluti, hanno invece offerto tempi di risposta molto più brevi, dimostrandosi meglio adattabili a un contesto dinamico come quello del gaming. Con tutta probabilità, dunque, effettuando un test simile su un gioco strategico a turni, i risultati potrebbero essere molto diversi.

Sebbene tutto ciò non rappresenti un benchmark vero e proprio, il risultato evidenzia come vi sia una netta differenza tra i diversi modelli AI.

Il videogioco di Super Mario diventa un test per i modelli AI

Le AI si sfidano a Super Mario: perché i modelli con ragionamento hanno avuto difficoltà?

Ti consigliamo anche

Assistente Google, addio alla modalità guida: altro passo verso Gemini

L'accusa pesantissima: i chatbot di Meta AI parlano di sesso con i minorenni

Test matematici USAMO 2025: tutti i modelli AI deludono le aspettative

Intel rilancia anche con i nuovi SoC Panther Lake e Nova Lake per i veicoli