Sommario
Un sistema innovativo sviluppato dalla Florida Atlantic University promette di abbattere le barriere comunicative per la comunità sorda attraverso una piattaforma di riconoscimento in tempo reale della lingua dei segni americana (ASL) basata su intelligenza artificiale. Il progetto nasce dalla necessità di offrire una soluzione accessibile e affidabile a fronte di una carenza strutturale di interpreti professionisti e dell’elevato costo dei servizi umani.
Il modello combina due tecnologie avanzate: YOLOv11, per il riconoscimento oggetti, e MediaPipe, per il tracciamento dettagliato delle mani. Il risultato è un sistema interattivo, eseguibile anche su hardware di consumo, che consente agli utenti di tradurre i segni manuali dell’alfabeto ASL in testo scritto, con una precisione misurata al 98,2% (mAP@0.5) e latenza quasi nulla. Il progetto, pubblicato sulla rivista Sensors, rappresenta un salto di qualità nella tecnologia assistiva per la comunicazione visivo-gestuale.
Funzionamento in tempo reale con webcam standard: zero contatto, massima accessibilità
Il sistema progettato da FAU si distingue per la sua accessibilità. Utilizza una comune webcam integrata come sensore di ingresso, senza necessità di dispositivi indossabili o ambienti controllati. Il flusso video viene scomposto in frame digitali, che MediaPipe analizza per individuare 21 punti chiave per ogni mano, tra cui articolazioni, polpastrelli e polso. Questi dati vengono interpretati da YOLOv11 per identificare e classificare le lettere dell’alfabeto ASL in tempo reale.
La pipeline di riconoscimento è completamente automatizzata: il sistema acquisisce il gesto, traccia la mappa scheletrica della mano, rileva le variazioni morfologiche e confronta la postura con un dataset di riferimento. Il tutto avviene in modo fluido anche in condizioni di illuminazione variabili o con sfondi complessi, grazie a una robusta fase di addestramento su immagini altamente diversificate.
Secondo Bader Alsharif, dottorando presso il Dipartimento di Ingegneria Elettrica e Informatica e primo autore dello studio, la forza del progetto risiede nella sua scalabilità e indipendenza da hardware specializzato: “Tutto ciò funziona con risorse standard, rendendo la tecnologia non solo efficace ma anche distribuita e replicabile in contesti educativi, sanitari e lavorativi.”
Un dataset ricco e variegato per garantire inclusività ed equità algoritmica
Uno dei punti di forza del progetto è la qualità del dataset ASL Alphabet Hand Gesture, composto da 130.000 immagini in diverse condizioni ambientali e fisiologiche. Le foto includono variazioni di tonalità della pelle, diversi angoli di ripresa, scene indoor e outdoor e livelli di illuminazione dal brillante al dim, per garantire la capacità del sistema di generalizzare a diversi utenti.
Ogni immagine è annotata con 21 keypoints, che tracciano la geometria della mano con estrema precisione. Questi punti forniscono una rappresentazione scheletrica astratta, capace di differenziare tra gesti morfologicamente simili come “M” e “N” o “A” e “T”, tra i più difficili da distinguere nei sistemi convenzionali.
Una soluzione per l’inclusione reale: impatti su scuola, sanità e ambienti sociali
L’obiettivo dichiarato è quello di rendere più fluide le interazioni tra persone sorde e udenti, superando la necessità di una figura di mediazione costosa o non sempre disponibile. Il sistema può essere applicato in ambienti scolastici, dove studenti con disabilità uditive potrebbero interagire in modo più efficace con compagni e docenti; in strutture sanitarie, per facilitare l’accesso a diagnosi e trattamenti; e in ambienti lavorativi o pubblici, per garantire pari opportunità di comunicazione.
Il professore Imad Mahgoub, co-autore dello studio e docente alla FAU, sottolinea come il progetto dimostri il potenziale umano dell’intelligenza artificiale: “Abbiamo fuso apprendimento profondo e tracciamento morfologico per creare una tecnologia realmente usabile da chi ha bisogno, non solo un prototipo da laboratorio.”
Dall’alfabeto alle frasi complete: il prossimo traguardo è l’interpretazione semantica
Se la versione attuale del sistema sviluppato dalla Florida Atlantic University è già in grado di riconoscere lettere singole dell’alfabeto ASL con un’altissima precisione, i ricercatori stanno ora lavorando alla fase successiva: il riconoscimento contestuale e semantico di intere frasi in lingua dei segni. Questo passaggio richiederà una transizione da modelli basati su singoli gesti statici a modelli dinamici, capaci di leggere sequenze temporali, interpretare la fluidità del gesto, cogliere movimenti di transizione e intonazioni spaziali.
Questo salto evolutivo implica la necessità di addestrare reti neurali ricorrenti (RNN) o trasformatori temporali, che analizzano sequenze video frame-by-frame, collegando gesti consecutivi in modo da ricostruire significati complessi. L’obiettivo è permettere all’utente non solo di scrivere parole lettera per lettera, ma anche di esprimere intere frasi, esattamente come accade nel linguaggio segnico naturale.
Il passo verso questa fase sarà reso possibile anche grazie all’espansione del dataset, che includerà videoclip multilingua, variazioni sintattiche e modelli comunicativi reali, per affinare la comprensione e ridurre i falsi positivi dovuti a movimenti involontari o simili.
Tecnologia per tutti: democratizzazione dell’AI e inclusione digitale reale
Uno degli aspetti più significativi del progetto riguarda la sua accessibilità economica e tecnica. A differenza di molte soluzioni proprietarie che richiedono hardware specifico, il sistema FAU funziona con componenti standard: una webcam comune, un laptop o tablet entry-level, e una connessione internet per aggiornamenti e sincronizzazione, se necessario. Questo lo rende potenzialmente distribuibile in contesti scolastici pubblici, biblioteche, uffici e sportelli sanitari, senza costi aggiuntivi proibitivi.
Secondo Mohammad Ilyas, professore e co-autore dello studio, si tratta di un vero contributo alla costruzione di una società più empatica e connessa: “Questa tecnologia rompe un confine storico. Porta la lingua dei segni in un’epoca digitale, dove può essere compresa da chiunque, in ogni contesto.”
Il valore sociale dell’iniziativa è rafforzato dalla struttura open e replicabile del modello, che può essere facilmente adattato ad altri linguaggi visivo-gestuali, come la Lingua dei Segni Italiana (LIS) o la British Sign Language (BSL), grazie alla modularità della pipeline di classificazione. La creazione di modelli linguistici locali consentirebbe infatti di rispondere alle esigenze specifiche di ogni comunità sorda nel mondo.
Uno strumento per l’autonomia e l’autodeterminazione
L’introduzione di un sistema di traduzione automatica dell’ASL in tempo reale ha implicazioni profonde anche dal punto di vista antropologico e culturale. Permette infatti alle persone sorde di gestire in autonomia conversazioni, procedure burocratiche, relazioni interpersonali e esperienze quotidiane, senza dover dipendere da mediatori esterni. Restituisce voce, indipendenza e centralità a un’intera fascia della popolazione spesso esclusa da dinamiche comunicative complesse.
Come ha dichiarato la preside della College of Engineering and Computer Science, Stella Batalama, il progetto segna un cambiamento di paradigma nell’utilizzo dell’AI: da strumento di ottimizzazione tecnica a mezzo di coesione sociale, inclusione e empowerment delle diversità comunicative.