La generazione di asset 3D, che ha visto un’enorme crescita negli ultimi anni, è un campo in rapida evoluzione grazie all’avanzamento delle tecnologie di intelligenza artificiale e machine learning. Un progetto che mostra le potenzialità di queste tecnologie è TRELLIS, un modello per la generazione oggetti 3D sviluppato da Microsoft che si basa su un concetto innovativo chiamato Structured Latent (SLAT). Questo approccio consente di produrre modelli 3D di alta qualità con dettagli precisi sia nella forma che nelle texture, sia a partire da descrizioni testuali che immagini bidimensionali.
Cos’è TRELLIS e come funziona
TRELLIS è un modello avanzato di generazione di asset 3D che, a differenza di altre tecniche di generazione, che utilizzano una sola rappresentazione latente, SLAT consente la decodifica in diversi formati di output.
Il cuore di TRELLIS è costituito dai Rectified Flow Transformers, progettati appositamente per lavorare con la rappresentazione SLAT. Questi transformer permettono di generare asset 3D in modo scalabile, permettendo di gestire dataset enormi (come il dataset da 500.000 oggetti 3D utilizzato per l’addestramento) e di produrre modelli di alta qualità.
I modelli generati da TRELLIS sono ricchi di dettagli, non solo nelle forme, ma anche nelle texture, che sono cruciali per applicazioni avanzate nei settori del gaming, della realtà aumentata (AR) e della realtà virtuale (VR).
Modifica locale degli asset 3D
Un aspetto innovativo di TRELLIS è la possibilità di eseguire modifiche locali sugli asset 3D via via generati. Ad esempio, si possono creare varianti dello stesso oggetto o fare modifiche localizzate per migliorare o personalizzare parti specifiche dell’oggetto 3D. Questa funzione è particolarmente utile in ambiti come il design di oggetti per il gaming o la personalizzazione di modelli per le simulazioni AR.
TRELLIS offre modelli pre-addestrati su un vasto dataset di asset 3D con un numero massimo di 2 miliardi di parametri. Questi modelli sono disponibili per l’uso direttamente tramite la piattaforma Hugging Face e possono essere utilizzati per generare asset 3D senza bisogno di addestrare il modello da zero.
Come provare TRELLIS e generare un oggetto 3D
Il modo più semplice e immediato per toccare con mano le abilità di TRELLIS, consiste nell’accedere a questa pagina ed effettuare l’upload di un’immagine. Con un clic su Generate, si ottiene una rappresentazione tridimensionale dell’oggetto a partire dall’immagine caricata. Con un clic su Extract GLB, si ottiene un file che può essere addirittura passato a una stampante 3D o a qualsiasi applicazione compatibile. Ne abbiamo parlato nell’articolo dedicato ai modelli 3D.
Il modello offre un rendering video in tempo reale delle diverse rappresentazioni 3D generate. Nell’esempio in figura, abbiamo creato un modello 3D con Trellis e scaricato il corrispondente file GLB partendo da questa semplice immagine pubblicata su Unsplash.
Installazione e configurazione in locale
A parte la demo disponibile su Hugging Face, gli sviluppatori Microsoft hanno sviluppato TRELLIS per funzionare su Linux appoggiandosi all’utilizzo di una scheda NVIDIA con almeno 16 GB di memoria (VRAM) a bordo. L’azienda di Redmond consiglia almeno l’utilizzo di GPU A100 o A6000, CUDA Toolkit, Python 3.8 o versioni successive, Conda per la gestione delle dipendenze.
Il processo di installazione prevede la clonazione del repository di TRELLIS e l’esecuzione di uno script setup.sh
per configurare l’ambiente e le dipendenze necessarie. L’installazione può richiedere del tempo a causa del numero elevato di dipendenze, ma una volta completata, il sistema è pronto per generare asset 3D:
git clone --recurse-submodules https://github.com/microsoft/TRELLIS.git
cd TRELLIS
./setup.sh --new-env --basic --xformers --flash-attn --diffoctreerast --spconv --mipgaussian --kaolin --nvdiffrast
TRELLIS è progettato per essere facile da utilizzare: questo esempio minimale consente agli utenti di creare oggetti 3D partendo da immagini. In questo caso, l’immagine è trasformata in un asset 3D, che può poi essere esportato in formati come GLB per l’utilizzo in applicazioni di realtà virtuale o aumentata.
Prossimi sviluppi e applicazioni future
TRELLIS è un progetto ancora in evoluzione: Microsoft prevede di rilasciare ulteriori modelli e funzionalità. Si parla anche della pubblicazione del codice per l’addestramento e dei dati utilizzati per addestrare i modelli. Gli utenti possono inoltre attendere miglioramenti nella qualità e nella versatilità della modifica locale.
La possibilità di generare asset 3D in vari formati, combinata con la capacità di modificarli in ambito locale, porta con sé un ampio ventaglio di campi applicativi. Generare oggetti 3D realistici e dettagliati in modo scalabile diventa un’opportunità da cogliere al volo per tutte quelle realtà interessate a implementare ambienti interattivi di alta qualità.