OpenAI, l’azienda che sviluppa ChatGPT e i sottostanti Large Language Models (LLM), sta preparando il lancio di Operator, uno strumento basato sull’intelligenza artificiale che potrà assumere il controllo del PC, svolgendo attività ed eseguendo un ampio ventaglio di compiti al posto dell’utente. L’AI diventa quindi sempre più “indipendente”, in grado di automatizzare operazioni e “prendere iniziative”, partendo dalle indicazioni fornite inizialmente.
Cos’è e come funziona OpenAI Operator
Operator vuole segnare un cambio di passo davvero rilevante. Rappresenta un cambiamento verso sistemi di intelligenza artificiale che possono interagire attivamente con le interfacce del computer anziché elaborare solo testo e immagini.
Appena qualche settimana fa, il numero uno di OpenAI, Sam Altman, spiegava che c’è ampio spazio per creare modelli generativi sempre migliori ma che la più grande novità in arrivo saranno gli “agenti”. Operator è un sistema che si basa proprio su agenti, ovvero componenti software in grado di svolgere operazioni per conto degli utenti, avvalendosi dei meccanismi AI più evoluti.
Ad Altman aveva fatto eco Kevin Weil, responsabile dei prodotti OpenAI: “penso che il 2025 sarà l’anno in cui i sistemi AI basati sugli agenti diventeranno finalmente mainstream“.
Una risposta convincente ad Anthropic
Anthropic ha battuto sul tempo OpenAI rilasciando già nelle scorse settimane le sue API Claude per il computer use. Le finalità sono le stesse: il modello è addestrabile per eseguire operazioni automatizzate al PC, in risposta a uno specifico prompt fornito dall’utente.
Le API (Application Programming Interfaces) di Anthropic documentate in questa pagina e ancora in versione beta, sono state utilizzate da sviluppatori indipendenti per proporre una bozza di agent da usare per trasferire all’AI il controllo del PC.
Quali possono essere i vantaggi degli agent basati su AI, in grado di interagire con le interfacce di PC e altri dispositivi?
Ovviamente il fine non è quello di consegnare passivamente un PC o un qualunque altro dispositivo all’AI. I rischi sarebbero immensi, anche perché i modelli generativi ci hanno abituati ai loro errori e alle loro allucinazioni.
Gli agent basati su AI, capaci di interagire direttamente con le interfacce dei dispositivi, tuttavia, offriranno una vasta gamma di vantaggi sia in ambito professionale che personale.
Possono ad esempio eseguire, al posto dell’utente, attività ripetitive e automatizzabili, come l’inserimento di dati, l’apertura e chiusura di applicazioni, l’organizzazione di file o la compilazione di moduli. In questo modo è possibile risparmiare tempo prezioso, dedicandosi a mansioni meno alienanti, più strategiche e creative.
Interagendo con le interfacce grafiche, gli agent AI possono combinare compiti come ricerca di informazioni, redazione di documenti e gestione di file con un’efficienza superiore rispetto agli umani. Per esempio, un agent potrebbe aprire programmi, compiere calcoli e aggregare dati in pochi secondi, migliorando la produttività aziendale.
Gli agent AI come evoluti assistenti virtuali
Ancora, gli agent possono diagnosticare problemi tecnici, configurare impostazioni o rispondere a domande frequenti in modo autonomo, senza richiedere l’intervento diretto di un operatore umano. Possono assistere gli utenti con disabilità motorie o visive, eseguendo comandi vocali e svolgendo azioni complesse sull’interfaccia grafica. Ad esempio, un agente potrebbe aprire applicazioni, leggere documenti o persino eseguire modifiche a testo e grafica tramite input vocali.
Gli agent AI possono fornire un supporto avanzato per attività che richiedono l’uso di più strumenti. Possono agire come “assistenti virtuali” per guidare l’utente, per esempio suggerendo impostazioni o controlli specifici durante l’uso di software complessi come CAD, software di editing video o strumenti di analisi dati.
Grazie alle “conoscenze” del sottostante LLM, un agent AI potrebbe collegare tra loro software diversi, aggregando dati ed eseguendo operazioni di sincronizzazione tra sistemi. Per esempio, potrebbe trasferire automaticamente documenti da un sistema di archiviazione cloud a un’applicazione di produttività locale, mantenendo i dati aggiornati su entrambi i fronti.
I potenziali utilizzi sono però praticamente infiniti: gli agent possono monitorare le attività dei dispositivi per rilevare anomalie e potenziali minacce, intervenendo automaticamente in caso di necessità. Nei contesti aziendali, potrebbero controllare gli accessi e verificare che solo le persone autorizzate utilizzino i sistemi.
Possono apprendere le preferenze dell’utente e adattarsi di conseguenza; ricordare i modi d’uso preferiti per le varie applicazioni, ottimizzando l’interfaccia e le funzionalità in base alle esigenze personali.