Il settore dell’intelligenza artificiale è in continua evoluzione, e quando sembrava che l’attenzione si stesse spostando verso gli Agenti AI, ecco che arrivano nuovi modelli capaci di ridefinire gli standard di riferimento.
Negli ultimi giorni, DeepSeek-V3 ha attirato l’attenzione, ma ora è Alibaba Cloud a rubare la scena con il lancio di Qwen2.5-Max, un modello linguistico avanzato che ha superato DeepSeek-V3 in diversi test di performance.
Qwen2.5-Max: i risultati dei benchmark
Alibaba ha sottoposto il suo nuovo modello a una serie di test di riferimento, confrontandolo con i principali LLM (Large Language Models) sul mercato. Ecco i punteggi ottenuti:
- Arena-Hard: misura la preferenza degli utenti nei confronti delle risposte AI. Qwen2.5-Max ha raggiunto 89,4, superando DeepSeek-V3 (85,5);
- MMLU-Pro: valuta la conoscenza accademica a livello universitario. Claude Sonnet è primo con 78,0, mentre Qwen2.5-Max segue con 76,1;
- GPQA-Diamond: testa la capacità di rispondere a domande generali. Qwen2.5-Max ha ottenuto 60,1, dietro a Claude Sonnet (65,0);
- LiveCodeBench: misura le capacità di programmazione. Qwen2.5-Max ha registrato 38,7, poco sotto Claude (38,9);
- LiveBench: un test generale delle capacità AI. Qwen2.5-Max ha battuto DeepSeek-V3 con un punteggio di 62,2 contro 60,5.
Un rivale per i modelli di punta
Dai test emerge che Qwen2.5-Max non solo compete con modelli leader come GPT-4o e Claude-3.5 Sonnet, ma in alcuni casi li supera. Questo dimostra l’impegno di Alibaba nel consolidarsi come un attore chiave nel panorama dell’intelligenza artificiale generativa.
Disponibilità e funzionalità
Per ora, Qwen2.5-Max è accessibile agli sviluppatori tramite API su Alibaba Cloud, facilitando l’integrazione in diverse piattaforme. Gli utenti finali possono testarlo attraverso Qwen Chat, che include funzioni avanzate come generazione di immagini e video. Inoltre, è prevista l’introduzione della ricerca web, una funzione attualmente segnalata come “in arrivo”. Potete usare tutto da questo link.
Il lancio di Qwen2.5-Max segna un ulteriore passo avanti nella competizione globale tra i giganti della tecnologia. L’ottimizzazione delle risorse computazionali e lo sviluppo di modelli sempre più avanzati stanno accelerando l’adozione dell’intelligenza artificiale in diversi settori, dal business alla ricerca scientifica.
Alibaba ha dimostrato di poter competere con i colossi dell’AI, e il successo di Qwen2.5-Max potrebbe ridefinire le strategie future dell’intero settore.