OpenAI: arrivano le API Realtime e i modelli IA personalizzabili usando le immagini

Durante il suo DevDay, OpenAI ha annunciato nuove API che consentono agli sviluppatori di creare esperienze multimodali e di integrare soluzioni di IA avanzata in tempo reale. Novità come il riconoscimento vocale avanzato e Model Distillation offrono maggior accessibilità e personalizzazione.

Durante l’evento DevDay, organizzato da OpenAI e svoltosi a San Francisco, l’azienda guidata da Sam Altman ha riunito gli sviluppatori che, a livello mondiale, utilizzano la sua piattaforma API (Application Programming Interface). La piattaforma API di OpenAI è un’interfaccia che permette ai programmatori di integrare i modelli di intelligenza artificiale nelle proprie applicazioni, sistemi e servizi. Tramite le API, è possibile accedere ai Large Language Models (LLM) di OpenAI e utilizzarli per svolgere una vasta gamma di compiti legati alla comprensione e generazione di testi e immagini. Ad esempio ricorrendo ai più recenti modelli generativi multimodali.

API in tempo reale per creare nuove esperienze multimodali basate sull’intelligenza artificiale

Sono tante le novità presentate da OpenAI in occasione del suo DevDay californiano. Un’API di nuova concezione permette agli sviluppatori di creare esperienze multimodali a bassa latenza.

Un po’ come fa l’Advanced Voice Mode di ChatGPT, l’API in tempo reale (API Realtime) appena presentata da OpenAI, supporta conversazioni naturali speech-to-speech utilizzando sei voci preimpostate.

L’API Realtime, ora disponibile in versione beta pubblica per tutti gli sviluppatori in possesso di un piano OpenAI a pagamento, rappresenta un’innovazione davvero significativa aprendo le porte a un’integrazione più fluida delle funzioni vocali.

In precedenza, infatti, per creare assistenti vocali avanzati era necessario un approccio più laborioso: si doveva trascrivere l’audio con un modello di riconoscimento vocale, passare il testo a un modello di elaborazione e utilizzare un modello di sintesi vocale per la risposta. L’API Realtime semplifica il tutto, gestendo input e output audio in streaming e permettendo un’esperienza più fluida e naturale. L’API utilizza diversi livelli di protezione per evitare abusi, compresa la revisione automatica e umana di input e output.

La nuova API continuerà ad evolversi con nuove funzionalità, come l’aumento dei limiti di sessione e l’integrazione con SDK ufficiali per Python e Node.js. Sono previsti anche supporti per nuove modalità, oltre all’estensione della compatibilità ad altri modelli, come GPT-4o mini.

Model Distillation: i modelli generativi più potenti possono essere tradotti in versioni più piccole e veloci

Con Model Distillation gli sviluppatori diventano in grado di predisporre, in totale autonomia, versioni più piccole, veloci e meno costose dei modelli di intelligenza artificiale avanzati.

Grazie a questo approccio l’IA diventa più accessibile, consentendo anche a piccole aziende di sfruttare le capacità dei modelli più grandi senza dover affrontare costi computazionali elevati.

Model Distillation fa sì che un modello complesso e potente (come GPT-4o o o1-preview) possa essere utilizzato per addestrare un modello più piccolo e meno costoso, mantenendo gran parte delle sue capacità. Questa metodologia permette di trasferire la conoscenza e le prestazioni del modello grande a uno più compatto, facilitando l’implementazione in contesti dove le risorse sono limitate, come nei dispositivi mobili o in applicazioni a bassa potenza.

Gli sviluppatori possono inoltre adattare i “modelli distillati” per casi d’uso specifici, migliorando le prestazioni in aree come la diagnostica medica o l’assistenza clienti.

Un meccanismo di memorizzazione rapida permette di ridurre il tempo di elaborazione dei prompt del 50% attraverso il riutilizzo dei token di input recentemente adoperati (prompt caching).

Riconoscimento delle immagini personalizzabile in profondità

Il fine-tuning per immagini consente agli sviluppatori di mettere a punto GPT-4o ricorrendo anche alle immagini, oltre che al testo. Un’innovazione che rappresenta un passo significativo verso l’integrazione di capacità visive sempre più evolute nei modelli di intelligenza artificiale.

L’API permette agli sviluppatori di utilizzare i propri dati visivi per affinare le prestazioni di GPT-4o in compiti specifici. Ad esempio, nel settore sanitario, un’azienda potrebbe addestrare il modello per riconoscere e classificare immagini di risonanze magnetiche per migliorare l’accuratezza diagnostica. Ancora, in ambito smart city, l’IA può rilevare eventi importanti, catalogarli e segnalarli; i veicoli a guida autonoma possono diventare ancora più abili nel riconoscere e reagire a situazioni di pericolo.

Le aziende possono creare modelli su misura che rispondono meglio alle loro esigenze specifiche, migliorando l’efficacia delle applicazioni di IA. L’integrazione delle immagini con il testo consente una comprensione più profonda e complessa dei contenuti, aprendo la strada a nuove applicazioni in vari settori, come la salute, l’istruzione e il marketing.

Ancora, le imprese possono sfruttare i propri dati visivi senza dover ricorrere a set di dati generali, garantendo che i modelli siano addestrati con informazioni pertinenti e specifiche.

Credit immagine in apertura: OpenAI

Ti consigliamo anche

Link copiato negli appunti