OpenAI lancia BrowseComp: benchmark AI per ricerche complesse

OpenAI lancia BrowseComp: il nuovo benchmark per valutare le ricerche online dell'AI

OpenAI, nelle scorse ore, ha lanciato il progetto BrowseComp. Stiamo parlando di un nuovo benchmark AI che permette di testare le capacità dell’Intelligenza Artificiale quando si tratta di effettuare ricerche sul web.

Progettato per superare i limiti di strumenti precedenti come SimpleQA, questo sistema di valutazione si presenta come un test rigoroso composto da 1266 quesiti attentamente selezionati dagli esperti di OpenAI. Un aspetto distintivo di BrowseComp è la sua varietà tematica, che permette alle domande di trattare TV e film (tema che costituisce il 16,2% dei quesiti) a scienza e tecnologia (13,7%) fino all’ arte (10%).

I risultati dei test condotti con questo strumento rivelano dati a dir poco interessanti. Gli esseri umani riescono a risolvere solo il 29,2% delle domande entro due ore, con risposte esatte nell’86,4% dei casi.

BrowseComp: i risultati ottenuti da ChatGPT

Per quanto riguarda le prestazioni delle AI, le differenze sono significative tra i vari modelli: GPT-4o ha ottenuto un modesto 0,6% di risposte corrette, mentre OpenAI o1 ha raggiunto il 9,9%. Al contrario, il sistema Deep Research, specializzato nella ricerca web, ha ottenuto un risultato più apprezzabile, ovvero ha raggiunto il 51,5% di risposte corrette.

Un’analisi più approfondita del benchmark mostra che il 16% delle domande ha un tasso di accuratezza del 100%, mentre il 14% dei quesiti rimane completamente irrisolto. È interessante notare che, anche di fronte alle domande più complesse, l’AI dimostra la capacità di riconoscere le risposte corrette quando queste vengono presentate. Questo dato evidenzia il potenziale delle AI nel contribuire alla conferma di informazioni.

Il valore di BrowseComp non si limita alla capacità di trovare informazioni, andando oltre e valutando anche altre competenze cruciali, come la flessibilità nel riformulare le ricerche e la capacità di sintetizzare dati provenienti da fonti diverse. Tuttavia, OpenAI sottolinea che il test si concentra solo su domande con una singola risposta corretta, lasciando aperta la questione di come queste capacità possano essere applicate a quesiti senza risposte assolute.

OpenAI lancia BrowseComp: il nuovo benchmark per valutare le ricerche online dell'AI

BrowseComp: i risultati ottenuti da ChatGPT

Ti consigliamo anche

OpenAI si prepara al lancio di GPT-4.1?

Ecco perché Apple è così indietro con l'AI

Microsoft rilancia la funzione AI Recall su Windows 11

ChatGPT ora può ricordare informazioni relative a chat passate