Sommario
Un team di ricercatori della North Carolina State University ha sviluppato una tecnica che consente ai programmi di intelligenza artificiale (AI) di effettuare una mappatura migliore degli spazi tridimensionali utilizzando immagini bidimensionali catturate da più fotocamere. Questa innovazione promette di migliorare significativamente la navigazione dei veicoli autonomi, operando efficacemente con risorse computazionali limitate.
Multi-View Attentive Contextualization (MvACon)
Il professor Tianfu Wu e il suo team hanno creato una tecnica denominata Multi-View Attentive Contextualization (MvACon), che può essere integrata nei programmi di visione artificiale esistenti per migliorare la capacità di mappare spazi 3D. Questa tecnica non richiede dati aggiuntivi dalle fotocamere, ma ottimizza l’uso dei dati esistenti.

MvACon si basa su un approccio chiamato Patch-to-Cluster attention (PaCa), introdotto lo scorso anno dagli stessi ricercatori. PaCa permette ai transformer AI di identificare oggetti in un’immagine in modo più efficiente ed efficace. La nuova applicazione di PaCa alla mappatura 3D con più fotocamere rappresenta un importante avanzamento.
Test e prestazioni
Per valutare le prestazioni di MvACon, i ricercatori lo hanno utilizzato con tre dei principali transformer di visione: BEVFormer, BEVFormer DFA3D e PETR. Questi transformer hanno raccolto immagini 2D da sei diverse fotocamere e, in tutti i casi, MvACon ha migliorato significativamente le prestazioni, specialmente nella localizzazione degli oggetti, nella velocità e nell’orientamento.
Applicazioni e futuri sviluppi
MvACon ha mostrato risultati promettenti anche con l’aumento minimo della domanda computazionale. I prossimi passi includono ulteriori test con dataset di riferimento aggiuntivi e input video da veicoli autonomi. Se i risultati continueranno a essere positivi, MvACon potrebbe essere adottato su larga scala.
La tecnica Multi-View Attentive Contextualization rappresenta un importante passo avanti nella capacità dei programmi di intelligenza artificiale di mappare gli spazi 3D utilizzando immagini 2D. Con potenziali applicazioni nei veicoli autonomi, questa innovazione potrebbe migliorare significativamente la navigazione e la sicurezza di questi mezzi.