Abbiamo abbondantemente parlato degli AI PC, ovvero dei computer di nuova generazione equipaggiati con l’hardware utile per gestire i carichi di lavoro più impegnativi legati alle applicazioni di intelligenza artificiale (IA). L’obiettivo, però, è di portare le funzionalità di IA anche sugli smartphone: quello che possiamo fare oggi con i dispositivi mobili di ultima generazione è un po’ limitarsi a raschiare soltanto la superficie.
Per questo motivo, Microsoft ha presentato Phi-3, suo modello generativo di dimensioni compatte progettato e sviluppato proprio per gli smartphone. La versione più compatta, Phi-3 Mini, include 3,8 miliardi di parametri. Accanto ad essa, la società di Redmond propone Phi-3 Small (7 miliardi di parametri) e Phi-3 Medium (14 miliardi di parametri).
I Large Language Models (LLM) utilizzavano appena un miliardo di parametri solo cinque anni fa (GPT-2 1,5 miliardi di parametri) mentre oggi siamo arrivati a valori davvero incredibili. I parametri rappresentano i pesi delle connessioni tra le unità che compongono i modelli neurali. L’uso di più parametri può consentire al modello di catturare maggiori dettagli e sfumature nei dati, migliorando le capacità generative. Tuttavia, l’uso di un gran numero di parametri richiede anche risorse computazionali significative per l’addestramento e l’esecuzione del modello stesso. Per questo, dice ad esempio Oracle, è opportuno cominciare a ripensare il futuro dell’intelligenza artificiale.
Microsoft punta sul nuovo modello Phi-3 per portare i modelli generativi e l’elaborazione del linguaggio naturale sugli smartphone
Il nuovo rilascio, documentato in questo approfondimento, segue quello del modello Phi-2 presentato appena a dicembre 2023. Considerati gli enormi passi in avanti compiuti dai concorrenti, Meta in primis, Microsoft ha deciso di proporre un ulteriore nuovo aggiornamento: Phi-3 Mini, a fronte di 3,8 miliardi di parametri, sarebbe in grado di superare le prestazioni di Meta Llama (8 miliardi di parametri) e di OpenAI GPT-3, almeno stando ai risultati dei benchmark condotti dai tecnici della società.
Le sue dimensioni limitate consentono l’utilizzo di Phi-3 sui dispositivi mobili, dotati di una potenza computazionale ridotta. Grazie a Phi-3 Mini, a detta di Microsoft stessa, si aprirà un nuovo capitolo per lo sviluppo di applicazioni basate su funzionalità imperniate proprio sull’IA.
Eric Boyd, vice presidente Microsoft, afferma che Phi-3 è capace di elaborare il linguaggio naturale direttamente sullo smartphone, senza più la necessità di “scomodare” servizi cloud. Ovviamente, aggiungiamo noi, non è nulla di lontanamente paragonabile con la base di conoscenze appannaggio dei modelli generativi disponibili su Internet e frutto di un’attività di addestramento massiva. Può contribuire però a modificare significativamente le “regole del gioco”, dimostrando che i dispositivi come gli smartphone possono eseguire in proprio operazioni di inferenza fino ad oggi prerogativa dei device equipaggiati con configurazioni hardware “più spinte”.
Come nasce il modello Phi-3: a quali principi si ispira
Lo sviluppo di modelli basati su miliardi di parametri prende le mosse dalle cosiddette “leggi di scala” che presuppongono l’utilizzo di una fonte di dati “fissa”. Questa assunzione è sempre più messa in discussione dall’utilizzo di LLM “di frontiera” che aprono le porte all’interazione con i dati utilizzando modalità nuove.
I ricercatori Microsoft spiegano che lo studio sui modelli “Phi” ha dimostrato come una combinazione dei dati provenienti dal Web e di dati sintetici creati da LLM consenta l’ottenimento di prestazioni elevate nei modelli linguistici di piccole dimensioni, performance che tipicamente si vedevano solo in modelli molto più grandi.
Dal punto di vista più prettamente tecnico, Phi-3 Mini utilizza architettura basata su Transformer, con una finestra di contesto predefinita pari a 4K. Microsoft non preclude comunque la possibilità di usare una context window molto più ampia: chiamata LongRope si estende a 128K.
Grazie alle sue dimensioni ridotte, Phi-3 Mini può essere quantizzato a 4 bit in modo che occupi all’incirca 1,8 GB di memoria. Provandolo su un Apple iPhone 14 con chip A16 Bionic, la latenza rilevata nelle operazioni di inferenza su 4.096 token è di 44 ms; per blocchi da 64K token sale a 53 ms.
Credit immagine in apertura: iStock.com – da-kuk