Sommario
Uno dei problemi centrali nell’utilizzo dell’intelligenza artificiale per applicazioni cliniche è la mancanza di affidabilità delle previsioni, specialmente quando sono richieste in contesti critici come la diagnostica per immagini. Un esempio classico è l’ambiguità tra versamento pleurico e infiltrati polmonari su una radiografia del torace, due condizioni cliniche che possono apparire simili ma richiedono trattamenti completamente differenti. I modelli AI possono assistere i medici nel processo decisionale, ma le loro risposte spesso mancano di precisione strutturata.
Un nuovo studio condotto da un gruppo di ricercatori del Massachusetts Institute of Technology, presentato alla Conference on Computer Vision and Pattern Recognition (CVPR), propone una soluzione che combina conformal classification con una tecnica nota come test-time augmentation (TTA). Il risultato è un sistema in grado di fornire set di predizione più piccoli e affidabili, senza la necessità di riaddestrare il modello.
Conformal classification: molte risposte, ma non sempre utili
La conformal classification è una tecnica che permette a un modello AI di generare un insieme di diagnosi probabili invece di una sola risposta, includendo una garanzia statistica che la vera diagnosi si trovi nel set. Il problema è che, in presenza di incertezza, i set prodotti sono spesso troppo ampi per essere pratici. In classificazioni complesse, come il riconoscimento di specie animali tra 10.000 classi, un modello può restituire anche 200 possibili risposte, rendendo inutile la consultazione.
Come afferma Divya Shanmugam, prima autrice dello studio e postdoc presso Cornell Tech, “scegliere tra 200 classi non è efficiente per nessun utente. Abbiamo bisogno di set più piccoli, senza perdere l’affidabilità del sistema”.
Test-time augmentation: migliorare la predizione aggregando più punti di vista
Per migliorare la precisione del sistema, i ricercatori hanno applicato una strategia nota come test-time augmentation, utilizzata in computer vision per rendere i modelli più robusti. Consiste nel creare varie versioni modificate della stessa immagine, mediante ritaglio, rotazione, zoom, ecc., e aggregare le previsioni fatte dal modello su ciascuna versione. Questo processo aumenta la stabilità e riduce l’influenza di artefatti casuali nei dati.
Il contributo innovativo dei ricercatori consiste nell’applicare TTA prima della conformal classification, producendo predizioni più accurate, su cui costruire set più piccoli a parità di affidabilità statistica.
Fino al 30% in meno di classi da valutare: efficienza aumentata senza compromessi
Secondo i risultati ottenuti su diversi benchmark di classificazione di immagini, il metodo combinato TTA + conformal classification ha ridotto la dimensione dei set di predizione tra il 10% e il 30%, mantenendo la garanzia statistica sulla presenza della classe corretta.
Anche se parte dei dati etichettati viene riservata per imparare il modo migliore di aggregare le immagini aumentate, l’incremento di accuratezza bilancia la perdita. Il metodo, inoltre, non richiede la riqualifica del modello originale, rendendolo facilmente implementabile in pipeline già operative.
Applicazioni future: classificazione di testo e ottimizzazione computazionale
Il gruppo guidato da John Guttag, professore di informatica al MIT, prevede di estendere l’approccio anche a modelli linguistici, per la classificazione automatica di documenti, email o report clinici. Una delle sfide sarà ridurre il carico computazionale introdotto dalle multiple predizioni necessarie per la TTA, un passo fondamentale per rendere la soluzione scalabile in ambienti a risorse limitate.
Come afferma Shanmugam, “questo studio solleva una questione interessante: come dovremmo usare i dati etichettati una volta terminato l’addestramento del modello? L’allocazione post-training dei dati è un ambito di ricerca ancora inesplorato”.