Sommario
Un nuovo modello di generazione di immagini basato sull’intelligenza artificiale, sviluppato da ricercatori del MIT e NVIDIA, promette di rivoluzionare la produzione grafica automatica. Si chiama HART (Hybrid Autoregressive Transformer) e combina la rapidità dei modelli autoregressivi con la precisione dei modelli di diffusione, offrendo immagini comparabili, se non superiori, a quelle ottenute con sistemi all’avanguardia, ma in un tempo nove volte inferiore.
HART è stato progettato per superare i limiti dei modelli esistenti. I modelli di diffusione, come Stable Diffusion e DALL·E, generano immagini dettagliatissime ma richiedono molta potenza computazionale e diversi secondi per ogni generazione. I modelli autoregressivi, simili a quelli usati nei LLM come ChatGPT, sono più veloci ma spesso producono risultati visivi approssimativi e con difetti. HART riesce a sfruttare i vantaggi di entrambi, evitando le rispettive debolezze.
Struttura di HART: due modelli in uno, cooperanti e complementari
Il cuore dell’architettura HART è un modello autoregressivo che predice l’immagine in blocchi discreti (token), seguito da un modello di diffusione compatto che raffina i dettagli mancanti. Questa combinazione è ispirata a una tecnica pittorica: prima si dipinge una bozza a grandi linee, poi si aggiungono i dettagli a pennellate sottili.
Il modello autoregressivo utilizza un autoencoder per comprimere i pixel in token discreti, generando rapidamente una prima versione dell’immagine. Ma poiché il processo di compressione comporta perdita di informazione, entra in gioco la diffusione dei token residui, che serve a ricostruire i dettagli ad alta frequenza come bordi, texture, occhi, capelli, o elementi complessi di un paesaggio.
Grazie a questa divisione del lavoro, la parte di diffusione è ridotta da 30 a soli 8 passaggi, mantenendo la qualità visiva elevata senza rallentamenti.
Prestazioni superiori a modelli più grandi con meno calcolo
Durante la fase di test, HART ha dimostrato di produrre immagini della stessa qualità di un modello di diffusione da 2 miliardi di parametri, pur utilizzando una combinazione di:
- Un modello autoregressivo da 700 milioni di parametri
- Un modello di diffusione compatto da 37 milioni di parametri
Questa architettura risulta più veloce, più leggera e meno esigente in termini di risorse. Il processo può essere eseguito su laptop commerciali o smartphone, rendendo la generazione di immagini AI più accessibile anche fuori dai data center.
Il consumo computazionale è inferiore del 31% rispetto ai modelli di riferimento, rendendo HART particolarmente interessante per applicazioni mobili, edge computing e realtà aumentata.
Applicazioni previste: creatività accessibile, edge AI e integrazione con LLM
La natura ibrida e compatta di HART apre la strada a numerose applicazioni in ambienti in cui la latenza e l’efficienza energetica sono fattori critici, come nei dispositivi mobili, nei browser o nei sistemi AR/VR. La possibilità di generare immagini in alta qualità in pochi istanti direttamente su dispositivi locali elimina la dipendenza da server remoti, migliorando privacy, velocità di risposta e portabilità.
Il team del MIT sottolinea inoltre che l’architettura di HART è naturalmente compatibile con modelli linguistici di grandi dimensioni (LLM). Questo significa che può essere facilmente integrato in agenti AI multimodali, capaci di generare testo, immagini e video in sinergia. Un chatbot creativo potrebbe, per esempio, scrivere una storia, illustrarla in tempo reale e rispondere a richieste visive dell’utente, con un livello di coerenza e precisione visiva fino ad oggi riservato a modelli pesanti ed esosi.
Un’altra possibilità riguarda il campo della formazione professionale e del design visivo: HART consente la prototipazione rapida di interfacce, prodotti, ambienti architettonici o concept art con un consumo di risorse contenuto e una qualità accettabile per la validazione.
Un passo concreto verso l’efficienza computazionale nell’AI generativa
Il vero punto di forza di HART non risiede soltanto nella sua rapidità o nella qualità estetica delle immagini, ma nel suo approccio ingegneristico: anziché inseguire modelli sempre più grandi e dispendiosi, i ricercatori del MIT e NVIDIA propongono una soluzione ottimizzata, scalabile e pronta all’uso su una gamma molto più ampia di dispositivi.
Questo approccio riflette una tendenza emergente nell’intelligenza artificiale generativa: quella verso architetture modulari, stratificate e ibride, dove modelli diversi collaborano secondo le loro specializzazioni per ottenere un risultato globale più efficace e sostenibile.
HART rappresenta un’evoluzione concettuale oltre che tecnica, ponendo le basi per futuri sistemi di generazione visiva più democratici, più veloci e meno centralizzati, adatti tanto al cloud quanto all’utente finale.