Bastano meno di 50 euro per creare un concorrente di OpenAI o1

Il modello s1, sviluppato da ricercatori delle Università di Stanford e Washington, si distingue per l'uso innovativo di risorse cloud economiche, con prestazioni simili a quelle di modelli avanzati come OpenAI o1. Come funziona?

Un gruppo di ricercatori delle Università di Stanford e Washington ha recentemente sviluppato un LLM (Large Language Model) che integra abilità di ragionamento, come OpenAI o1. Battezzato s1, ciò che lascia di stucco è il fatto che sia realizzato a valle di un investimento da meno di 50 euro per l’utilizzo di risorse cloud. Come spiegato nel documento di ricerca, s1 ha prestazioni simili a quelle dei modelli più avanzati nel settore, come il già citato OpenAI o1 e DeepSeek-R1, che appena qualche giorno fa AMD ha spiegato come eseguire sui suoi chip Ryzen AI e Radeon.

Il team di ricerca è partito da un modello di base già disponibile sul mercato, per poi affinare le sue capacità tramite un processo noto come “distillazione“. Si tratta di un procedimento che estre  le capacità di ragionamento da un altro modello, allenandolo sulle risposte di quest’ultimo. In particolare, il modello s1 è stato distillato da uno dei modelli di tipo reasoning Google, ossia Gemini 2.0 Flash Thinking Experimental.

Cos’è la distillazione e come funziona

Come abbiamo accennato in precedenza, la distillazione si riferisce a una tecnica utilizzata per trasferire conoscenze da un modello più grande (“modello insegnante”) e complesso a uno più piccolo e leggero (“modello studente”). Il processo è particolarmente utile quando si desidera mantenere le prestazioni di un modello avanzato riducendone al contempo i requisiti computazionali. Durante la fase di distillazione, il modello studente è addestrato per imitare le uscite del modello insegnante su un insieme limitato di dati rappresentativi.

Modello s1: uso del fine-tuning supervisionato (SFT)

Il modello s1, partorito nei poli accademici di Stanford e Washington con un investimento limitatissimo, è costruito ricorrendo al metodo di fine-tuning supervisionato (SFT). Ne parliamo nell’articolo sulle 10 cose tecniche più interessanti del funzionamento di ChatGPT e soci.

SFT risulta molto meno costoso rispetto al metodo di apprendimento rinforzato impiegato da DeepSeek per allenare il suo modello R1, concorrente di o1.

Utilizzando un set di dati contenente solo 1.000 domande selezionate con cura, s1 è riuscito a raggiungere ottimi risultati su vari benchmark AI, riducendo notevolmente i costi computazionali. Gli studiosi hanno scoperto che i 1.000 esempi individuati erano sufficienti per ottenere prestazioni simili a quelle di un modello da 32 miliardi di parametri. Aggiungere più dati non ha migliorato le performance.

Secondo Niklas Muennighoff, uno dei ricercatori coinvolti, l’intero processo di allenamento ha richiesto meno di 30 minuti, utilizzando 16 GPU Nvidia H100, con una spesa complessiva di  20 dollari.

L’introduzione di una pausa di riflessione nel modello

Per ottimizzare ulteriormente il modello, i ricercatori hanno anche implementato una “pausa” durante il processo di ragionamento, aggiungendo la parola “wait” per consentire al modello di “riflettere meglio” prima di rispondere. Questo piccolo accorgimento ha contribuito a migliorare la precisione delle risposte.

OpenAI ha per prima suggerito l’implementazione di strumenti volti ad agire sullo scaling del tempo di inferenza. In sostanza, era già chiaro che un LLM può migliorare le sue performance se ha più tempo per “pensare” prima di rispondere.

Quando un LLM “pensa” durante l’inferenza, racchiude le riflessioni all’interno dei tag <think> e </think>. Una volta superato il tag di chiusura, il modello cambia il tono in modo deciso per rispondere. Ma nel paper incentrato su s1, quando il modello cerca di fermarsi con il tag </think>, lo costringono a continuare introducendo un “wait“. In questo modo, il modelloo inizia a dubitare della sua risposta e a verificarla.

Qualche riflessione sul futuro dell’AI

Nel 2025, grandi aziende come Meta, Google e Microsoft investiranno miliardi di dollari sulle infrastrutture AI, concentrandosi sullo sviluppo di modelli di intelligenza artificiale di prossima generazione. Distillare capacità da modelli esistenti, infatti, rimane una via più economica, ma non promette di spingere i confini dell’innovazione come potrebbe fare un approccio completamente nuovo.

Lo studio dei ricercatori di Stanford e Washington sta facendo molto discutere. Se è possibile replicare con risorse minime modelli che in passato richiedevano ingenti investimenti, che tipo di vantaggi competitivi rimangono per le grandi aziende e laboratori di ricerca? La risposta è che, semplicemente, siamo ancora agli inizi della corsa all’AI e quello che stiamo vedendo oggi è soltanto un amuse-bouche di quello che potremmo degustare in un futuro che sembra sempre più vicino.

Alcune innovazioni, come s1, dimostrano che non è solo il denaro che conta, ma anche il numero di esperimenti che si possono condurre. Utilizzando una tecnica chiamata ablazione, è possibile rieseguire l’intero processo di addestramento del modello con piccole variazioni, per capire cosa funziona e cosa no.

Credit immagine in apertura: iStock.com – BlackJack3D

Ti consigliamo anche

Link copiato negli appunti