Dall’arrivo di ChatGPT sono stati lanciati sul mercato dell’intelligenza artificiale molti modelli linguistici. L’abbondanza dell’offerta rende difficile per gli utenti il compito di giudicare la qualità dei diversi LLM. Finora le valutazioni principali provengono direttamente dalle aziende, che selezionano criteri privilegiando le proprie tecnologie.
Per fornire un punto di riferimento oggettivo sulle prestazioni dei modelli linguistici, la Large Model Systems Organization (LMSYS) ha deciso di offrire una propria classifica.
Cos’è ChatbotArena?
LMSYS è un progetto avviato dagli studenti dell’Università di Berkeley e supportato da Hugging Face. Mira a produrre modelli linguistici, sviluppare interfacce e compilare set di dati per stimolare la ricerca sull’intelligenza artificiale generativa. Per offrire un confronto tra le diverse opzioni disponibili, LMSYS ha creato Chatbot Arena, uno spazio di confronto tra modelli.
Chatbot Arena utilizza il sistema di valutazione Elo, un metodo popolare per misurare il livello dei giocatori di scacchi. Concretamente, nell’interfaccia Hugging Face, gli utenti sono invitati a determinare, tra due modelli linguistici, quello più efficiente, sulla base di istruzioni identiche. Viene quindi determinato un punteggio, tenendo conto del risultato e del punteggio iniziale dei modelli.
I 10 modelli linguistici più performanti
Dopo aver raccolto più di 400.000 contributi, Chatbot Arena ha stilato una classifica. E il modello che si posiziona in alto non è GPT-4, ma Claude 3 Opus, sviluppato da Anthropic e ancora non disponibile in Italia. GPT-4 è comunque riuscito a piazzare sul podio due delle sue varianti. Gemini Pro, integrato nella versione premium del chatbot Gemini, manca di poco la top 3, mentre Llama 2 (di Meta) si ritrova parecchio indietro, in 27esima posizione.
Ecco i 10 modelli linguistici più performanti secondo Chatbot Arena:
- Claude-3 Opus: 1253 (punteggio Elo)
- GPT-4 1106: 1251
- GPT-4 0125: 1248
- Gemini Pro: 1203
- Claude 3 Sonet: 1198
- GPT-4 0314: 1185
- Claude 3 Haiku: 1179
- GPT-4 0613:1158
- Mistral Large 2402: 1157
- Qwen1 5-72B Chat: 1148
Come partecipare al voto?
Chiunque può partecipare al progetto. Per farlo, basta accedere alla pagina Hugging Face di Chatbot Arena. Si ha quindi l’opportunità di confrontare due modelli linguistici anonimi inviando un unico prompt e analizzare le loro risposte, al fine di determinare quale ritieni funzioni meglio. Se non si riesce a stabilire quale sia il migliore, è possibile dichiarare un pareggio o continuare la conversazione finché non emerge un vincitore.