Il videogioco di Super Mario diventa un test per i modelli AI

Claude, Gemini e GPT-4o si sfidano a Super Mario: quale modello AI si è dimostrato più abile con il celebre platform?
Il videogioco di Super Mario diventa un test per i modelli AI

Dopo la live in streaming su Twitch, che ha visto il modello AI Claude impegnato in una partita a Pokémon, alcuni ricercatori hanno voluto testare questa nuova tecnologia con il leggendario Super Mario Bros., ottenendo risultati a dir poco interessanti.

Lo scorso weekend, Hao AI Lab, un’organizzazione di ricerca presso l’Università della California di San Diego, ha messo alla prova alcuni tra i modelli AI più conosciuti e apprezzati. Nella sfida al celebre platform, a comportarsi meglio è stato Claude 3.7 di Anthropic, seguito dal suo predecessore, Claude 3.5.

Inaspettatamente, Gemini 1.5 Pro di Google e GPT-4o di OpenAI non si sono dimostrati modelli abili con il titolo Nintendo.

Le AI si sfidano a Super Mario: perché i modelli con ragionamento hanno avuto difficoltà?

Va detto che, per l’esperimento, non è stata utilizzata la versione originale di Super Mario Bros., ovvero quella del 1985.

Il gioco in questione, avviato tramite emulatore, è stato integrato con un framework, GamingAgent, che ha permesso all’AI di gestire il joypad come un qualunque videogiocatore in carne e ossa.

GamingAgent, sviluppato internamente da Hao, ha fornito all’AI istruzioni base su come affrontare le sfide presenti nel gioco, proponendo anche alcuni screenshot utili per comprendere meglio il software. L’AI ha quindi generato input sotto forma di codice Python per controllare Mario.

Per assurdo, i modelli “ragionanti” si sono dimostrati più impacciati e lenti, in quanto per loro stessa natura lavorano con tempistiche più lunghe di elaborazione. Quelli teoricamente meno evoluti, hanno invece offerto tempi di risposta molto più brevi, dimostrandosi meglio adattabili a un contesto dinamico come quello del gaming. Con tutta probabilità, dunque, effettuando un test simile su un gioco strategico a turni, i risultati potrebbero essere molto diversi.

Sebbene tutto ciò non rappresenti un benchmark vero e proprio, il risultato evidenzia come vi sia una netta differenza tra i diversi modelli AI.

Ti consigliamo anche

Link copiato negli appunti