La divisione Meta AI Research rende il modello IA DINOv2 open source. Pre-addestrato su un set di dati composto da 142 milioni di immagini, può rivelarsi estremamente utile nel riconoscimento di azioni all’interno di feed video, nella classificazione delle immagini e per altre attività di visione artificiale. L’integrazione del modello potrebbe avvenire su sistemi che interagiscono anche con grandi modelli linguistici, fungendo da “spina dorsale” per tutto ciò che è relativo alla supervisione delle immagini e alla loro analisi profonda.
DINOv2 di Meta diventa open source
I modelli di deep learning per attività di questo tipo sono tendenzialmente basate su dataset colmi di annotazioni rilasciate da esseri umani, affinché le IA operino sotto la guida di personale specializzato. DINOv2 si fonda dunque su un set filtrato dalla stessa Meta a partire da 1,2 miliardi di immagini, optando per quelle più simili al database ImageNet. Complessivamente, il progetto ha richiesto centinaia di migliaia di ore di attività da parte di grandi blocchi di GPU al fine di arrivare a un modello base.
DINOv2 ha già mostrato le sue abilità stabilendo nuovi record su tre benchmark di riconoscimento di azioni all’interno di feed video. Scaricabile tramite Github, in futuro verrà integrato in sistemi IA molto più ampi e complessi, fornendo una notevole quantità di informazioni su qualsiasi immagine che verrà fornita in pasto dall’IA. I sistemi più avanzati, in questo modo, potranno ragionare sulle immagini in modo più profondo ed evitare di descriverle con una singola frase di testo, rendendo la generazione e analisi di fotografie e modelli 3D molto più veloce e dagli standard elevati.
Parlando sempre di intelligenza artificiale, vi presentiamo DragGAN, il software che rappresenta il futuro del fotoritocco grazie all’utilizzo dell’IA generativa di ultima generazione.