Chatbot, qual è il migliore in assoluto

Una guida per scegliere i migliori chatbot basati sull'intelligenza artificiale generativa, o quanto meno quelli più adatti alle proprie esigenze.

Ne è passato di tempo da quando, negli anni ’60, il chabot ELIZA eseguiva compiti semplici come controlli ortografici e forniva risposte pre-programmate. Con l’esplosione e la democratizzazione delle soluzioni basate sull’intelligenza artificiale generativa, l’uso dei moderni chatbot è diventato appannaggio di tutti: sui sistemi desktop, sugli smartphone così come in ambito server e nei data center.

Le aziende, infatti, utilizzano sempre più spesso i chatbot per fare inferenza sui loro dati ed estrarre valore, ottenendo informazioni preziose, precedentemente non individuabili o identificabili con difficoltà. Di recente abbiamo parlato del futuro dell’intelligenza artificiale con Oracle.

I chatbot e il legame con i Large Language Model (LLM)

Nell’era digitale, i Large Language Model (LLM) rappresentano un’opportunità straordinaria per migliorare la produttività e ottenere un concreto vantaggio competitivo. Compreso da vicino il funzionamento di un LLM, va comunque tenuto presente che nessun modello generativo è infallibile e che tutti possono commettere errori, a volte evidenti e madornali, altre volte più subdoli e difficili da riconoscere (nascosti nel testo nel caso dell’elaborazione del linguaggio naturale o NLP, Natural Language Processing).

Nel descrivere gli errori che commette ChatGPT, abbiamo invitato a non prendere per oro colato ciò che i chatbot e in generale i LLM suggeriscono. È necessario disporre di tempo, competenze e di un certo bagaglio esperienziale per verificare le informazioni restituite.

L'”intelligenza” dei LLM deriva da un’attività di addestramento che è fortemente influenzata dal volume e dalla qualità delle informazioni utilizzate. Inoltre, il livello di dettaglio del prompt ovvero delle informazioni inserite in input dall’utente, incide direttamente sull’attendibilità e sulla precisione delle risposte ottenute. Bisogna però sempre tenere in considerazione che i LLM derivano da logiche matematico-statistiche, che mettono in correlazione le probabilità con cui vari termini ed entità sono più simili tra loro. La replica del funzionamento cervello umano è ancora molto distante.

In ogni caso, i LLM si adattano a una vasta gamma di usi: a parte gli impieghi di carattere più generico, possono migliorare i flussi di lavoro in settori come lo sviluppo software, la ricerca scientifica, la sanità, il marketing, la finanza e in tanti altri segmenti.

Come scegliere il migliore chatbot oggi disponibile

Ci chiedono spesso quale sia il miglior chatbot utilizzabile oggi, un partner digitale in grado di rispondere in maniera pertinente, esaustiva, puntuale e argomentata a qualsiasi tipo di quesito.

Diciamo subito che anche nel settore dei chatbot non esiste un “vestito per tutte le stagioni”. Inoltre, la domanda è intrinsecamente mal posta.

Un chatbot, indipendentemente dal soggetto che l’ha sviluppato, è soltanto la punta dell’iceberg, la parte più evidente di un meccanismo basato sull’intelligenza artificiale con cui l’utente può dialogare, usando ad esempio il testo o la voce. In entrambi i casi, comunque, le interazioni avvengono usando il linguaggio naturale.

Ciò che conta non è tanto il chatbot in sé, quanto il modello generativo o LLM sottostante: un chatbot può utilizzare un unico modello o addirittura permette agli utenti di scegliere quale utilizzare di volta in volta, a seconda delle specifiche esigenze. Si pensi a ChatGPT: il chatbot di OpenAI consente l’utilizzo di vari modelli, soprattutto agli utenti che decidono di attivare un piano di abbonamento (a pagamento).

Anche gli utenti in possesso di un account gratuito possono usare più modelli generativi con ChatGPT: al momento, infatti, il chatbot permette di trasferire un numero limitato di prompt a GPT-4o, il LLM più avanzato di OpenAI. Una volta esaurita la possibilità, l’input dell’utente è passato al più vecchio, ma comunque performante, GPT-3.5.

ChatGPT e il modello GPT-4o

Il 14 maggio 2024, OpenAI ha presentato il suo nuovo modello di intelligenza artificiale, denominato GPT-4o. Si tratta di un LLM multimodale in grado di elaborare testo, voce e informazioni visive a velocità sorprendentemente elevate, rispondendo in tempo reale. Si distingue anche per le sue evidenti abilità nel risolvere problemi matematici, un ambito in cui i tradizionali modelli mostrano limitazioni severe.

ChatGPT, basato su GPT-4o, si è distinto per la sua capacità di risolvere problemi complessi che né GPT-4 né Claude 3 Opus (il LLM di punta di Athropic) riuscivano a gestire, mostrando anche un’eccezionale competenza anche nella lingua italiana.

Chatbot ChatGPT

Come abbiamo visto nell’articolo incentrato sugli errori di ChatGPT, abbiamo visto che i sottostanti modelli (fino a GPT-4) fallivano in diversi ambiti: ad esempio, nel ragionamento temporale e spaziale, nel ragionamento fisico, nel ragionamento psicologico, nella matematica e aritmetica, nella programmazione informatica, nella generazione di ASCII art, nell’elaborazione dei fatti (contaminata da pregiudizi) e in molte altre aree.

Ben lungi dall’essere infallibile, GPT-4o rappresenta un deciso passo avanti: le competenze matematiche di questo LLM emergono nettamente. Il modello non solo risolve problemi matematici complessi ma è anche in grado di spiegare il processo di soluzione in modo chiaro e comprensibile. Il progetto llm-chess-puzzles ha ad esempio certificato le abilità di GPT-40 nella risoluzione di quesiti scacchistici.

Ad oggi, l’accoppiata ChatGPT più GPT-4o non ha probabilmente rivali. Per alcune esigenze specifiche, vale comunque la pena orientarsi su soluzioni alternative.

Anthropic e il modello Claude

Un altro modello che si mette in evidenza per le abilità multimodali e per l’abilità nella composizione delle risposte, è Claude di Anthropic. Il chatbot Claude può utilizzare le tre versioni più recenti dei sottostanti LLM: Haiku, Sonnet e Opus.

Claude è arrivato di recente in Italia e gli utenti possono utilizzarlo per elaborare testi più lunghi rispetto a ChatGPT, con la possibilità di ottenere risposte pertinenti e ben sviluppate su un ampio ventaglio di argomenti.

Claude 3 Opus, il modello più avanzato, si pone sostanzialmente allo stesso livello rispetto a Google Gemini e GPT-4 Turbo mentre non riesce a tenere testa a GPT-4o.

Chi utilizza un account gratuito, può inviare un ampio numero di richieste giornaliere a Claude 3 Sonnet, il modello intermedio di Anthropic.

Chabot Claude 3 Sonnet

Ottenere risposte più aggiornate con i riferimenti alle fonti: Perplexity

I modelli generativi, per loro natura, fermano le loro “conoscenza” a una certa data nel tempo. Alcuni chatbot, tuttavia, hanno ambizioni da motore di ricerca.

In un altro articolo abbiamo visto cosa può succedere con un ChatGPT che diventa motore di ricerca. Sì, perché mantenendo il sottostante LLM, nulla vieta agli sviluppatori di fornire un chatbot che combina attività di inferenza svolte su tale modello con le informazioni reperite attraverso un’attività di crawling in tempo reale, svolta sul Web direttamente o indirettamente.

ChatGPT lo sta già facendo, almeno parzialmente, con il “GPT” aggiuntivo Web Browser, attivabile opzionalmente dagli utenti cliccando su Esplora GPT (lo possono fare anche coloro che usano un account free, come spiegato nell’articolo su che cosa sono i GPT di ChatGPT).

Se aveste bisogno di interrogare un chatbot capace di effettuare ricerche sul Web e di citare le fonti, Perplexity è un ottimo strumento.

Il chatbot tende a fornire risposte in inglese: vi suggeriamo di aggiungere una frase del tipo “spiegalo in italiano” o qualcosa di simile, per assicurarsi di ottenere un testo nella nostra lingua.

Perplexity chatbot

Combinare la ricerca Web con il modello generativo

Phind Ask è forse il chatbot che riesce a combinare meglio le abilità del LLM con le informazioni provenienti dal Web. A valle di qualunque richiesta dell’utente, infatti, Phind propone una risposta che unisce le “conoscenze” del modello generativo con i riscontri trovati sul Web.

Diversamente rispetto a Perplexity e ad altri strumenti (per non parlare di ChatGPT e Google Gemini), Phind mette in bella evidenza le sorgenti di informazioni. La colonna di destra mostra l’elenco di pagine Web utilizzate per produrre la risposta consegnata in output.

Phind decide di volta in volta se affidarsi prevalentemente al sottostante modello o se integrare le informazioni recuperate dal Web e opportunamente rielaborate.

Phind Chatbot ricerca Web

Google Gemini si mette alle spalle l’esperienza Bard

Dopo gli approssimativi risultati che il primo frettoloso tentativo di Google di approcciarsi al mondo dei modelli generativi e dei chatbot forniva (Bard), le ultime versioni di Gemini appaiono finalmente convincenti.

Google sta progressivamente sostituendo il suo assistente digitale con Gemini. Da giugno 2024, infatti, gli utenti italiani possessori di un dispositivo Android possono utilizzare Gemini sul proprio smartphone.

In alternativa c’è sempre il chatbot accessibile da Web, previo accesso con il proprio account utente a questa pagina.

Dicevamo dell’integrazione tra intelligenza artificiale generativa e ricerca sul Web. Poteva il motore di ricerca per antonomasia ignorare quest’aspetto? No. E infatti Google Gemini propone un pulsante Verifica la risposta che permette di confrontare il testo prodotto con i risultati pubblicati sulle pagine Web. Il sistema evidenzia in verde le risposte che trovano riscontri, con altri colori quelle affermazioni che invece necessitano di ulteriori approfondimenti da parte dell’utente.

Chatbot Google Gemini: confronto Web risposte

Generazione e modifica del codice di programmazione

Alcuni chatbot sono particolarmente abili nel gestire il codice di programmazione in decine di linguaggi differenti. Tra tutti, spicca GitHub Copilot che con Workspace ha mostrato come cambia l’intero ciclo di sviluppo del software.

Sebbene ChatGPT offra risultati molto spesso convincenti, Phind Code riesce a battere in molti frangenti anche i modelli di OpenAI.

Menzione speciale va a Codestral della startup francese Mistral AI. Per provarlo, si può visitare la home page di Mistral Le Chat quindi scegliere Codestral dal menu posto sotto il campo Ask anything.

Chatbot Arena: per confrontare i risultati dei modelli

Un ottimo strumento per rendersi conto delle differenze tra LLM e, di conseguenza, scegliere il chatbot migliore per le proprie esigenze, è Chatbot Arena.

L’applicazione web mette a confronto due LLM scelti in modo casuale tra quelli supportati. L’identità dei modelli generativi non è inizialmente rivelata ed è l’utente che, previo inserimento di un prompt più o meno articolato, è chiamato a valutare la bontà delle risposte ottenute.

Migliori chatbot intelligenza artificiale

Con un clic sulla scheda Arena (side-by-side) in alto, l’utente può selezionare i modelli da confrontare quindi inviare una specifica richiesta per paragone i risultati ottenuti. Anche in questo caso è possibile votare il LLM che ha fornito la risposta migliore.

Confronto chatbot e modelli generativi

Come hanno fatto notare i ricercatori di Anthropic, alla fine il LLM è una scatola nera difficile da esplorare. Il funzionamento più profondo di ciascun modello non è noto neppure a chi l’ha realizzato, come ben evidenzia lo studio condotto dalla startup che ha realizzato gli apprezzati modelli Claude.

La dimensione del modello influenza significativamente le prestazioni dell’LLM. GPT-4o e Claude 3 vantano dimensioni enormi, che contribuiscono alla loro eccezionale accuratezza. Tuttavia, i modelli più grandi presentano svantaggi come maggiori richieste computazionali e consumo di energia. Llama 3 e Mistral Large sono disponibili in varie “taglie”, adattandosi a diverse esigenze. Grok-1 e Grok-1.5 si distinguono come alcuni dei più grandi modelli open-source disponibili, mostrando il potenziale degli LLM open source.

Segnaliamo infine anche DuckDuckGo AI Chat, un chatbot unico che si propone di assicurare l’utilizzo di quattro tra i migliori LLM senza condividere alcun dato personale dell’utente.

Credit immagine in apertura: iStock.com – BlackJack3D

Ti consigliamo anche

Link copiato negli appunti