Sommario
Le cuffie con cancellazione del rumore hanno raggiunto livelli di prestazioni notevoli, ma isolare selettivamente certi suoni dall’ambiente rimane una sfida. Un team dell’Università di Washington ha sviluppato un sistema di intelligenza artificiale chiamato “Target Speech Hearing” (TSH) che consente a chi indossa le cuffie di ascoltare una singola persona in una folla semplicemente guardandola per pochi secondi.
Funzionamento del Sistema Target Speech Hearing
Il sistema TSH è stato presentato alla Conferenza ACM CHI su Fattori Umani nei Sistemi di Calcolo a Honolulu. Utilizzando un’intelligenza artificiale avanzata, il sistema consente a chi indossa le cuffie di puntare lo sguardo verso una persona che parla per 3-5 secondi per “registrarla”. Successivamente, il sistema cancella tutti gli altri suoni nell’ambiente e riproduce solo la voce della persona registrata in tempo reale, anche quando l’ascoltatore si muove in ambienti rumorosi e non guarda più il parlante.
Dettagli tecnici
Le cuffie utilizzate sono dotate di microfoni che catturano le onde sonore della voce del parlante selezionato. Il segnale viene inviato a un computer integrato nelle cuffie, dove il software di apprendimento automatico del team impara i modelli vocali del parlante. Il sistema continua a migliorare la sua capacità di focalizzarsi sulla voce registrata man mano che il parlante continua a parlare.
Il team ha testato il sistema su 21 soggetti, che hanno valutato la chiarezza della voce del parlante registrato quasi il doppio rispetto all’audio non filtrato.
Potenziali applicazioni e limiti
Attualmente, il sistema TSH può registrare solo un parlante alla volta e non è in grado di registrare un parlante quando c’è un’altra voce forte proveniente dalla stessa direzione. Tuttavia, il team sta lavorando per espandere il sistema agli auricolari e agli apparecchi acustici in futuro.
Questa tecnologia potrebbe rivoluzionare il modo in cui le persone interagiscono in ambienti rumorosi, offrendo una soluzione innovativa per chi ha difficoltà uditive o necessita di concentrazione in situazioni affollate.
Finanziamenti e Collaboratori
La ricerca è stata finanziata da un premio Moore Inventor Fellow, una cattedra Thomas J. Cable Endowed Professorship e un fondo UW CoMotion Innovation Gap Fund. Tra gli autori dello studio ci sono Bandhav Veluri, Malek Itani e Tuochao Chen, dottorandi della Allen School, e Takuya Yoshioka, direttore della ricerca presso AssemblyAI. Il sistema Target Speech Hearing rappresenta un passo avanti significativo nell’uso dell’intelligenza artificiale per migliorare la percezione uditiva. Mentre la tecnologia continua a evolversi, le potenziali applicazioni di questa innovazione sono vastissime, promettendo di migliorare significativamente la qualità della vita per molte persone.