Llama.cpp è una libreria software open source sviluppata per eseguire inferenze in locale su LLM (Large Language Model) come Llama. Si distingue per la sua capacità di operare senza dipendenze esterne, rendendola accessibile anche su hardware non specializzato. Dopo aver installato un server locale Llama.cpp, è da oggi possibile fruire di un meccanismo che permette di attivare l’autocompletamento di testi e codice di programmazione.
Llama.vscode è compatibile con Visual Studio Code e vuole rappresentare un’alternativa concreta, aperta e scevra da limitazioni, a GitHub Copilot. Si tratta di una soluzione, leggera e performante, accessibile direttamente dall’ambiente di sviluppo.
Come funziona Llama.vscode per completare frasi e codice di programmazione
Dopo aver correttamente installato un’istanza del server di Llama.cpp, si può prelevare e caricare sul sistema in uso l’estensione per Visual Studio Code dal marketplace Microsoft.
L’unica variazione da effettuare in fase di configurazione consiste nell’indicare l’indirizzo locale di Llama.cpp. Se il modulo server è in esecuzione sullo stesso sistema, basta inserire l’indirizzo di loopback (127.0.0.1
) seguito dal numero di porta (ad esempio :8012
).
Llama.vscode è in grado di offrire suggerimenti in tempo reale, a seconda di quanto digitato dall’utente. È possibile accettare un suggerimento con la pressione del tasto TAB
, limitarsi solo alla prima riga con MAIUSC+TAB
o accettare la parola seguente con CTRL/Cmd
+ tasto destro. Si possono far scomparire o apparire i suggerimenti manualmente usando la combinazione di tasti CTRL+L
.
L’applicazione permette di ottimizzare le prestazioni configurando il tempo massimo per la generazione del testo, può integrare porzioni del contenuto di file aperti, modificati o copiati per arricchire il contesto e supporta contesti molto ampi anche su hardware meno potente grazie al riutilizzo intelligente della cache. Infine, è possibile accedere a statistiche sulle prestazioni in tempo reale.
Con l’espressione “contesti molto ampi” si intende la capacità dell’estensione di gestire una quantità significativa di informazioni rilevanti attorno al cursore, durante le attività di scrittura. Ciò permette di avere suggerimenti precisi e coerenti, anche quando il completamento dipende da riferimenti distanti nel documento in corso di lavorazione.
Le impostazioni consigliate per Llama.cpp
La buona notizia è che l’estensione Llama.vscode per Visual Studio Code è frutto del lavoro di Georgi Gerganov, lo stesso autore di Llama.cpp e “guru” di molteplici app di primo piano nel campo dell’intelligenza artificiale: citiamo ad esempio “pezzi da novanta” come Ollama, LMStudio, Jan.
Gerganov consiglia le impostazioni migliori per il server Llama.cpp, a seconda del quantitativo di memoria VRAM disponibile sulla scheda grafica dedicata (meno di 8 GB, meno di 16 GB, più di 16 GB).
Insieme con Llama.vscode, lo sviluppatore ha messo a disposizione degli interessati anche il progetto Llama.vim, compatibile con editor di testo popolari in ambiente Linux quali Vim/Neovim.