Quando si parla di intelligenze artificiali e dei modelli generativi, il problema delle allucinazioni è piuttosto comune. Un’allucinazione è il fenomeno che porta alla produzione di output non realistici, errati o fuorvianti.
Cos’è un’allucinazione nel caso delle intelligenze artificiali
Se avete usato qualche modello generativo o semplicemente il chatbot ChatGPT di OpenAI (o altri prodotti simili), vi sarà certamente capitato di imbattervi in testi non plausibili prodotti dall’intelligenza artificiale. Gli output, in questo caso, veicolano informazioni che possono sembrare attendibili solo a una prima sommaria lettura ma che non trovano invece alcun riscontro reale. Si pensi, per esempio, a fatti inventati o informazioni facenti riferimento a qualcosa che non esiste.
I modelli di generazione delle immagini potrebbero produrre oggetti, persone o scenari che non esistono nella realtà: si pensi a volti umani distorti od oggetti con caratteristiche fisiche impossibili.
Un’altra forma di allucinazione può manifestarsi quando il modello genera output che riflettono troppo da vicino i dati di addestramento: in questo caso si rileva la creazione di copie delle informazioni di partenza o combinazioni di dati preesistenti piuttosto che idee originali.
Le cause delle allucinazioni possono derivare da diversi fattori. Se il modello non fosse addestrato con una quantità sufficiente di dati realistici e diversificati; se fosse eccessivamente complesso, con una tendenza a sovra-adattare i dati di addestramento; se poggiasse su di un algoritmo di per sé incline a produrre allucinazioni.
Vectara Hallucination Evaluation Model (HEM) valuta le prestazioni di qualunque modello generativo
Vectara ha sviluppato e presentato uno strumento open source chiamato “Hallucination Evaluation Model” (HEM) che valuta quanto frequentemente i modelli generativi LLM (Large Language Model) manifestano il problema delle allucinazioni.
Nella tabella elaborata dai tecnici di Vectara, i valori nella colonna Answer Rate rappresenta la percentuale di volte in cui il modello preso in esame ha effettivamente cercato di generare una risposta o un riassunto basato sui dati recuperati e disponibili a fronte della domanda posta in input. La precisione e l’attendibilità delle risposte, sono invece misurate con metriche quali Accuracy e Hallucination Rate, anch’esse presenti nella tabella.
Modello | Answer Rate | Accuracy | Hallucination Rate | Average Summary Length |
GPT-4 | 100% | 97,0% | 3,0% | 81,1 parole |
GPT-3.5 | 99,6% | 96,5% | 3,5% | 84,1 parole |
Llama 2 70B | 99,9% | 94,9% | 5,1% | 84,9 parole |
Llama 2 7B | 99,6% | 94,4% | 5,6% | 119,9 parole |
Llama 2 13B | 99,8% | 94,1% | 5,9% | 82,1 parole |
Cohere-Chat | 98,0% | 92,5% | 7,5% | 74,4 parole |
Cohere | 99,8% | 91,5% | 8,5% | 59,8 parole |
Anthropic Claude 2 | 99,3% | 91,5% | 8,5% | 87,5 parole |
Mistral 7B | 98,7% | 90,6% | 9,4% | 96,1 parole |
Google Palm | 92,4% | 87,9% | 12,1% | 36,2 parole |
Google Palm-Chat | 88,8% | 72,8% | 27,2% | 221,1 parole |
Con l’espressione “Average Summary Length“, Vectara si riferisce invece alla lunghezza media dei testi prodotti da ogni singolo modello.
La vera abilità dei modelli generativi consiste nell’approccio RAG
Secondo Vectara, tuttavia, la vera potenza dei moderni modelli linguistici risiede e risiederà sempre più nel cosiddetto approccio RAG (Retrieval Augmented Generation). Si tratta dell’abilità delle intelligenze artificiali di interagire con fonti di conoscenza esterne in modo da integrare e migliorare la rappresentazione interna della conoscenza già in capo a ciascun modello LLM. Proprio l’utilizzo dello schema RAG, sempre per i tecnici Vectara, avrebbe l’effetto positivo di ridurre le allucinazioni.
L’idea fondamentale del processo RAG è quella di arricchire il processo generativo introducendo un’operazione preliminare di recupero di dati rilevanti. Questo approccio mira a migliorare la qualità e la coerenza dell’output generato, poiché il modello generativo è alimentato con informazioni specifiche e rilevanti estratte tramite l’operazione iniziale di recupero.
RAG sfrutta le informazioni pertinenti ottenute dal recupero per guidare e influenzare il processo di generazione, fornendo contesto e supporto al modello generativo.
Per arrivare ai dati contenuti nella tabella di Vectara, che abbiamo ripubblicato poco sopra, l’azienda ha “dato in pasto” 1.000 documenti di breve lunghezza ai vari modelli LM citati nella prima colonna per poi chiedere di riepilogare ciascun documento utilizzando solo il contenuto che figura nel documento stesso. In 831 casi su 1.000, tutti i modelli linguistici hanno creato un riassunto di qualità, pertinente e soddisfacente. Negli altri casi non è andata altrettanto bene, con la generazione di allucinazioni.
La piattaforma proposta e utilizzata da Vectara è disponibile pubblicamente su Hugging Face. Chiunque può verificare il funzionamento del modello HEM e svolgere test in totale autonomia.
Credit immagine in apertura: iStock.com/da-kuk