Proprio ieri parlavamo dell’annuncio epocale di Anthropic che, aggiornando i suoi modelli generativi Claude, ha anche parlato di “computer use“: l’intelligenza artificiale può muovere il mouse e usare il PC. D’ora in avanti, Claude può addirittura utilizzare un computer come farebbe un essere umano: esaminare il contenuto dello schermo, muovere cursori e puntatori, digitare testo, interagire con i vari elementi che compongono qualsiasi interfaccia grafica. Claude 3.5 Sonnet è il primo modello di intelligenza artificiale a offrire questa funzionalità in beta pubblica.
Come provare queste nuove abilità? Anthropic mette a disposizione una speciale API (Application Programming Interface) per l’abilitazione del “computer use“.
Non è gratis: le richieste di “computer use” sono considerate un sottoinsieme delle richieste di utilizzo dei LLM Anthropic e sono prezzate come qualsiasi altra richiesta inviata all’API Claude. Oltre ai token di base, sono necessari token di input aggiuntivi per interagire con il sistema dell’utente. Questo documento di supporto chiarisce il tutto.
Il funzionamento delle API Anthropic per controllare il PC con l’intelligenza artificiale
Ci siamo chiesti se in queste prime ore dal lancio della funzionalità “computer use” da parte di Anthropic non fosse già disponibile qualche strumento per provare subito il comportamento dell’intelligenza artificiale nel gestire un PC su richiesta dell’utente.
Detto, fatto. Agent.exe è un progetto indipendente open source pubblicato su GitHub che permette di accedere in modo facile e veloce alle abilità del nuovo modello Claude 3.5 Sonnet.
Con il progetto Agent.exe, Claude 3.5 Sonnet può utilizzare il computer locale per eseguire comandi e operazioni, seguendo le istruzioni fornite dall’utente sotto forma di un prompt. In questo modo è possibile automatizzare compiti di ogni tipo attivando un’interazione diretta con il browser Web e con tutte le altre applicazioni.
Come usare Agent.exe
Agent.exe è un’app Electron che permette a Claude di controllare direttamente un computer locale. L’iniziale intenzione dell’autore consisteva nell’implementare una modalità “semi-automatica” in cui l’utente avrebbe dovuto confermare ogni azione. L’esecuzione delle operazioni è tuttavia già sufficientemente lenta da permettere all’utente di fermare il processo premendo il tasto “stop“.
Per iniziare è sufficiente clonare il repository GitHub:
git clone https://github.com/corbt/agent.exe
cd agent.exe
npm install
A questo punto si deve rinominare il file .env.example
in .env
e aggiungere al suo interno, usando un normale editor di testo, la chiave API di Anthropic. Infine, per avviare l’app che attiva l’interazione con Claude è sufficiente digitare quanto segue:
npm start
Una volta attivato Agent.exe, è possibile impartire comandi a Claude per eseguire operazioni sul proprio computer. Ovviamente è bene effettuare dei test soltanto su sistemi non utilizzati per scopi produttivi, magari avvalendosi di una macchina virtuale.
Requisiti essenziali
Per iniziare a fare qualche esperimento con Agent.exe, è necessario un sistema operativo compatibile. macOS è pienamente supportato; su Windows e Linux potrebbe essere necessario qualche adattamento, anche se le dipendenze del progetto sono comunque multipiattaforma.
È inoltre necessario avere Node.js e il gestore di pacchetti npm installati per eseguire l’app Electron. Indispensabile, inoltre, Git per clonare il repository.
Ancora, condicio sine qua non per procedere è ottenere una chiave API da Anthropic per poter interagire con il modello e impostarla nel file .env
.
L’autore di Agent.exe tiene infine a precisare che Claude sembra al momento interfacciarsi meglio con Firefox piuttosto che con altri browser Web.
Conclusioni
Ovviamente Agent.exe va preso per quello che è: un esperimento. Nel progetto e in quello che Anthropic ha appena realizzato c’è però il germe di ciò che sarà possibile fare nel futuro molto prossimo. Utilizzando comandi testuali o vocali, diverrà possibile svolgere operazioni o automatizzare attività. Si potranno effettuare compiti, avvalendosi dell’intelligenza artificiale, che prima non si era in grado di svolgere, ad esempio perché sprovvisti delle competenze necessarie, perché non si ricorda come raggiungere una funzione od ottenere un risultato o perché materialmente impossibilitati a farlo (si pensi a chi non può disporre dell’uso delle mani).