Secondo governo australiano umani meglio dell'IA nella creazione di riassunti

L'IA alle prese con i riassunti? Secondo una ricerca australiana è un vero fallimento: ecco il risultato dei test.
Secondo governo australiano umani meglio dell'IA nella creazione di riassunti

Tra le tante utilità dell’Intelligenza Artificiale vi è quella di riassumere rapidamente documenti lunghi, facilitandone la lettura e la comprensione. Secondo un recente studio della Securities and Investments Commission (ASIC) del governo australiano, quando si parla di riassunti spesso si sopravvalutano le capacità di tale tecnologia.

I test eseguiti attraverso l’impiego del modello Llama2-70B, per esempio, sono stati giudicati nettamente inferiori rispetto allo stesso lavoro eseguito da un essere umano. Lo studio, condotto tra gennaio e febbraio, ha messo in evidenza come sia difficile valutare le reali capacità dei Large Language Models (LLM). Nonostante ciò, è apparso evidente come l’IA presenti delle difficoltà quando si tratta di eseguire riassunti.

ASIC ha collaborato con Amazon Web Services, chiedendo all’IA di riassumere dei documenti che contenevano comunicazioni politiche. Nell’esperimento, Llama2-70B è stato superato da modelli più grandi come ChatGPT-4o, Claude 3.5 Sonnet e Llama3.1-405B. Nonostante i migliori punteggi nei test, anche gli altri modelli IA si sono dimostrati ben lontani dalla perfezione.

IA nella creazione di riassunti? Allucinazioni e problemi di altro tipo

Dopo le varie prove a cui l’IA è stata sottoposta, il personale ASIC ha sottolineato come il risultato ottenuto sia ovviamente collegato a quanto il prompt sia esaustivo. Nonostante ciò, nel complesso l’IA ha dimostrato “Una limitata capacità di analizzare e riassumere contenuti complessi che richiedono una profonda comprensione del contesto, sottili sfumature o significato implicito“. Secondo alcuni valutatori, l’IA si dimostra prolissa e talvolta inutile, ripetendo concetti senza riassumere in modo corretto i documenti.

Non solo: i valutatori coinvolti nei test di ASIC hanno sottolineato anche altri problemi. L’IA sembra aver incluso informazioni errate, omesso dati rilevanti ed evidenziato altri poco interessanti. Di fatto, il lavoro svolto ha presentato diversi casi allucinazioni, un fenomeno ancora molto diffuso in questo contesto.

Secondo l’analisi, nel complesso, viene riconosciuto che l’IA attuale, essendo imprecisa, necessita comunque dell’intervento umano per svolgere un lavoro soddisfacente. Tutto ciò si traduce nella possibile creazione di posti di lavoro, contrariamente a ciò che si pensa spesso quando si fa riferimento a tale tecnologia.

Ti consigliamo anche

Link copiato negli appunti