Un nuovo studio condotto dal Massachusetts Institute of Technology (MIT) ha rivelato una falla fondamentale nei moderni modelli visione-linguaggio (VLM): l’incapacità di gestire correttamente parole di negazione come “no” e “non”. Questa limitazione, apparentemente linguistica, ha implicazioni critiche in settori come la sanità, l’industria manifatturiera e i sistemi di raccomandazione automatizzati, dove il contesto semantico negativo può modificare radicalmente l’interpretazione delle immagini.
L’indagine, guidata da Kumail Alhamoud con la supervisione della professoressa Marzyeh Ghassemi, dimostra che i VLM falliscono sistematicamente nel distinguere tra la presenza e l’assenza di oggetti, perché i dataset di addestramento utilizzati non includono esempi espliciti di negazione. Questa carenza conduce a errori logici anche banali: ad esempio, confondere “un paziente con edema ma senza cardiomegalia” con “un paziente con entrambi i sintomi”, alterando l’intera traiettoria diagnostica.
Attraverso benchmark dedicati e dataset sintetici creati ad hoc, i ricercatori hanno mostrato che l’aggiunta di descrizioni contenenti negazioni può migliorare la precisione del 10% nell’image retrieval e fino al 30% nel question answering a scelta multipla. Tuttavia, gli autori avvertono che si tratta solo di una soluzione provvisoria: il problema strutturale richiede una riformulazione del paradigma di addestramento, e l’introduzione sistematica della negazione come componente semantica fondamentale.