L’intelligenza artificiale non sa leggere la stanza: l’essere umano resta superiore nella comprensione delle interazioni sociali dinamiche

da Lorenzo De Santis matricedigitale.it
0 commenti 3 minuti leggi

Secondo un nuovo studio condotto dalla Johns Hopkins University, l’essere umano rimane nettamente superiore all’intelligenza artificiale nella capacità di interpretare le interazioni sociali in contesti dinamici, come brevi clip video. Lo studio dimostra che, nonostante i progressi dei modelli linguistici, video e immagine, le IA attuali non riescono a cogliere intenzioni, relazioni e contesti sociali quando questi si sviluppano nel tempo. Il risultato ha implicazioni profonde per applicazioni come la guida autonoma, i robot assistivi, e l’interazione naturale uomo-macchina.

AI e scene dinamiche: i modelli linguistici falliscono nell’interpretare l’azione sociale

I ricercatori hanno chiesto a gruppi di esseri umani di guardare clip da tre secondi, e di valutare su una scala da uno a cinque quanto le persone nei video stessero interagendo, agendo indipendentemente, oppure operando fianco a fianco. A confronto, sono stati testati oltre 350 modelli di IA, inclusi modelli linguistici, video e immagine, per verificare se fossero in grado di predire le stesse risposte.

Annunci

Il risultato è stato netto: gli esseri umani hanno mostrato un elevato livello di coerenza nei giudizi, mentre nessuna delle IA ha saputo replicare la valutazione umana con precisione. I modelli video si sono rivelati incapaci di descrivere con accuratezza le azioni osservate; i modelli linguistici si sono comportati leggermente meglio, ma sono comunque risultati inferiori ai partecipanti umani. Anche fornendo ai modelli immagine una sequenza di fotogrammi, non sono riusciti a riconoscere se tra i soggetti fosse in atto una comunicazione.

Perché l’intelligenza artificiale fatica: una questione di architettura cognitiva

Secondo Leyla Isik, professoressa di scienze cognitive alla Johns Hopkins e autrice principale dello studio, l’origine del problema è profonda: le reti neurali artificiali sono ispirate alla parte del cervello umano che elabora immagini statiche, ma non a quella deputata alla comprensione delle scene dinamiche. Questo spiegherebbe il motivo per cui le IA eccellono nel riconoscimento di oggetti e volti in singoli fotogrammi, ma falliscono quando devono seguire l’evoluzione di un’interazione nel tempo.

Come afferma Kathy Garcia, co-autrice e dottoranda, “riconoscere oggetti e volti è stato il primo passo dell’AI visiva, ma la vita reale non è fatta di immagini fisse. Serve comprendere lo sviluppo di una scena, le relazioni tra persone, il contesto in cui si trovano”.

Neuroscienza, comportamento e AI: un confronto impari

Lo studio, presentato alla International Conference on Learning Representations (ICLR), ha cercato di misurare la distanza tra il modo in cui il cervello umano reagisce a una scena e la risposta dei modelli AI alle stesse sequenze. Il divario emerso è marcato: i modelli non riescono a replicare né il comportamento percettivo umano, né la risposta neurale osservata tramite scansioni cerebrali.

I ricercatori ritengono che per colmare questa distanza sarà necessario ripensare l’architettura stessa dell’intelligenza artificiale, ispirandosi a come il cervello umano processa le scene in movimento e i rapporti sociali complessi.

Una sfida aperta per la robotica e la guida autonoma

Le implicazioni dello studio sono rilevanti per qualsiasi settore che intenda sviluppare AI capaci di interagire con l’essere umano in tempo reale. Una macchina autonoma, sia essa un robot assistivo o un veicolo a guida autonoma, deve comprendere dove sta andando un pedone, se due persone stanno parlando o per attraversare, e quale gesto stia per compiersi in una determinata scena.

Attualmente, nessun sistema AI possiede queste capacità. Come dichiara Isik, “ogni volta che vogliamo che l’AI interagisca con l’uomo, è fondamentale che sappia cosa le persone stanno facendo. Questo studio mostra che oggi, semplicemente, non lo sa”.

Si può anche come

MatriceDigitale.it – Copyright © 2024, Livio Varriale – Registrazione Tribunale di Napoli n° 60 del 18/11/2021. – P.IVA IT10498911212 Privacy Policy e Cookies

Developed with love by Giuseppe Ferrara