CytoDiffusion introduce un classificatore generativo basato su diffusion model che cambia radicalmente il modo in cui viene affrontata la classificazione morfologica delle cellule sanguigne in ematologia, superando i limiti strutturali dei modelli discriminativi tradizionali. In un dominio in cui variazioni sottili, eterogeneità biologica e fattori tecnici di acquisizione rendono complessa l’analisi microscopica, CytoDiffusion non si limita a tracciare confini decisionali, ma modella l’intera distribuzione morfologica delle cellule, avvicinandosi al processo cognitivo degli esperti umani e, in diversi aspetti, superandolo.
L’approccio nasce dalla constatazione che in ambito clinico non basta stabilire “a quale classe appartiene” una cellula, ma è fondamentale capire quanto una cellula sia tipica o atipica, quanto la decisione sia affidabile e quali elementi morfologici abbiano realmente guidato la classificazione. CytoDiffusion affronta questi problemi integrando generazione, classificazione, rilevamento delle anomalie e quantificazione dell’incertezza in un unico framework coerente.
Cosa leggere
Modellare distribuzioni invece di confini decisionali
Il cuore di CytoDiffusion è l’uso di diffusion model latenti, addestrati per apprendere la distribuzione completa delle morfologie cellulari piuttosto che una semplice funzione discriminativa. Il modello viene inizializzato a partire da un’architettura di tipo Stable Diffusion 1.5, condizionata tramite vettori one-hot che rappresentano le classi cellulari. La classificazione non avviene tramite un softmax classico, ma stimando la probabilità posteriore di ciascuna classe attraverso l’ottimizzazione della log-likelihood approssimata.

x 0 viene prima codificata in uno spazio latente utilizzando un codificatore.
rumore gaussiano
viene quindi aggiunto per creare una rappresentazione latente rumorosa
z t . Questa rappresentazione rumorosa viene alimentata attraverso un modello di diffusione per ogni possibile condizione di classe
c . Il modello prevede il rumore
ϵ θ per ogni condizione. La decisione di classificazione viene presa selezionando la classe che minimizza l’errore tra il rumore previsto
ϵ θ e il rumore reale
ϵ .
Questo cambio di paradigma è cruciale in ematologia, dove molte classi cellulari presentano sovrapposizioni morfologiche e continuità piuttosto che separazioni nette. Modellando la distribuzione, CytoDiffusion riesce a rappresentare sia le cellule “prototipiche” sia quelle borderline, fornendo una base naturale per anomaly detection e valutazione dell’incertezza.
Realismo generativo e validazione con esperti umani
Uno degli aspetti più impressionanti di CytoDiffusion è la sua capacità di generare immagini sintetiche di cellule sanguigne praticamente indistinguibili da quelle reali. In uno studio condotto su 2.880 immagini valutate da dieci ematologi, gli esperti hanno raggiunto un’accuratezza media di 0,523 nel distinguere immagini reali da immagini generate, un valore compatibile con una scelta casuale.

n = 1.000 immagini).
a –
d , Funzioni psicometriche che mostrano l’accuratezza in funzione di un indice di discriminabilità. In questi pannelli, i punti dati (cerchi neri) rappresentano l’accuratezza media per le immagini suddivise in bin per confidenza e la loro dimensione è proporzionale al numero di prove in ciascun bin. La linea nera continua rappresenta l’adattamento della funzione psicometrica di massima verosimiglianza ai dati. La barra di errore nera orizzontale sulla curva indica l’intervallo di credibilità del 95% per la soglia della funzione, stimata all’80% di accuratezza (non scalata in base ai tassi di errore e di ipotesi). I grafici nel riquadro mostrano la densità di probabilità a posteriori congiunta per i parametri della funzione psicometrica, ampiezza e soglia.
a , Funzione psicometrica per CytoDiffusion, con il proprio punteggio di confidenza come indice di discriminabilità.
b , Funzione psicometrica per un esperto umano rappresentativo (Esperto 5), utilizzando il punteggio di confidenza di CytoDiffusion come indice di discriminabilità.
c , Funzione psicometrica per lo stesso esperto (Esperto 5), utilizzando la confidenza dell’esperto come indice di discriminabilità.
d , Funzione psicometrica per il modello ViT-B/16, con il proprio punteggio di confidenza come indice di discriminabilità.
e ,
f , Confronto dei parametri della funzione psicometrica (ampiezza e soglia) tra i sei esperti umani. I cerchi colorati rappresentano la media a posteriori delle stime dei parametri e le barre di errore rappresentano gli intervalli di credibilità del 95%. I parametri sono stati stimati utilizzando la confidenza CytoDiffusion (
e ) o la confidenza media dell’esperto (
f ) come indice di intensità del segnale.
La fedeltà generativa raggiunge 0,986 sui tipi cellulari condizionati, indicando che il modello non si limita a produrre immagini plausibili, ma rispetta con precisione le caratteristiche morfologiche specifiche di ciascuna classe. Questo risultato non è solo un traguardo tecnico, ma rafforza la credibilità clinica del modello, dimostrando che le rappresentazioni apprese sono biologicamente coerenti.
Prestazioni di stato dell’arte su dataset multipli
CytoDiffusion viene valutato su diversi dataset di riferimento, tra cui CytoData, PBC, Bodzas e Raabin-WBC, raggiungendo risultati di stato dell’arte in termini di accuratezza di classificazione. Su CytoData ottiene 0,987, su PBC 0,989 e su Bodzas 0,986, superando modelli discriminativi avanzati come EfficientNetV2-M e ViT-B/16.

b , Confronto delle prestazioni del modello in condizioni di dati ridotti su quattro set di dati citologici. I punti dati rappresentano l’accuratezza bilanciata media e le aree ombreggiate rappresentano la deviazione standard. Le statistiche sono state calcolate da cinque sessioni di addestramento indipendenti. AUC, area sotto la curva.
Particolarmente rilevante è la robustezza al domain shift. Addestrato su un dataset, CytoDiffusion mantiene un’accuratezza di 0,854 quando testato su dati acquisiti con microscopi, fotocamere e colorazioni differenti. Questo risultato evidenzia una capacità di generalizzazione superiore, fondamentale per l’adozione clinica in contesti reali, dove le condizioni di acquisizione variano significativamente tra laboratori.
Quantificazione dell’incertezza e metacognizione clinica
Un contributo distintivo di CytoDiffusion è la quantificazione esplicita dell’incertezza, ottenuta come differenza tra gli errori minimi delle classi più probabili, normalizzata in un intervallo interpretabile. Questa misura viene poi mappata tramite funzioni psicometriche bayesiane, che mettono in relazione accuratezza e discriminabilità, avvicinando il comportamento del modello a quello di un osservatore psicofisico ideale.

H neutrofilo ), che evidenzia le aree che dovrebbero cambiare affinché il modello classifichi l’immagine come neutrofilo. Estrema destra: una sovrapposizione della mappa termica con soglia sull’immagine originale, che localizza le caratteristiche più critiche.
b , Matrice di mappe termiche controfattuali per varie transizioni di tipo cellulare. La diagonale mostra le immagini originali di ciascun tipo cellulare, che fungono da immagine sorgente per le rispettive colonne. Ogni elemento fuori diagonale nella stessa colonna rappresenta una mappa termica controfattuale (
H c ) che mostra la transizione dall’elemento diagonale (sorgente) al tipo cellulare di quella riga (bersaglio). Le aree nella mappa termica con colori che si discostano maggiormente dallo sfondo indicano regioni in cui sono presenti grandi errori nello spazio latente tra le due classi.
In modo sorprendente, le funzioni di confidenza prodotte da CytoDiffusion descrivono la performance degli esperti umani meglio delle loro stesse autovalutazioni. I parametri psicometrici permettono di distinguere abilità diverse tra specialisti con maggiore precisione rispetto alla semplice confidenza dichiarata. Questo apre scenari concreti di triage clinico, in cui i casi ad alta confidenza possono essere automatizzati, mentre quelli incerti vengono indirizzati all’analisi umana.
Rilevamento delle anomalie e sensibilità diagnostica
CytoDiffusion eccelle nel rilevamento delle anomalie, un aspetto critico per lo screening ematologico. Escludendo deliberatamente alcune classi patologiche dall’addestramento, il modello riesce a identificarle come out-of-distribution con prestazioni eccezionali. Nel rilevamento dei blast su Bodzas, raggiunge un AUC di 0,990, con sensibilità 0,905 e specificità 0,962, superando nettamente i modelli discriminativi, che mostrano sensibilità drasticamente inferiori.
Questa capacità è particolarmente rilevante in ambito clinico, dove minimizzare i falsi negativi è essenziale per intercettare precocemente condizioni come le leucemie. CytoDiffusion dimostra di catturare la struttura della normalità morfologica, rendendo le deviazioni patologiche immediatamente evidenti.
Efficienza in regimi low-data e sottotipi rari
Un ulteriore vantaggio del modello è l’elevata efficienza in scenari con pochi dati. Con appena 10 immagini per classe, CytoDiffusion raggiunge un’accuratezza bilanciata di 0,962, superando in modo significativo architetture come ViT-B/16. Questo aspetto è cruciale per la gestione di sottotipi cellulari rari, dove la raccolta di grandi dataset annotati è spesso impraticabile.
La capacità di apprendere distribuzioni complete consente al modello di sfruttare al meglio ogni esempio disponibile, riducendo la dipendenza da grandi volumi di dati etichettati.
Spiegabilità integrata tramite heat map controfattuali
A differenza di molte tecniche post-hoc, CytoDiffusion offre una spiegabilità intrinseca attraverso heat map controfattuali generate direttamente dal processo generativo. Queste mappe evidenziano le regioni dell’immagine che dovrebbero cambiare per alterare la classificazione, mettendo in luce tratti morfologici clinicamente rilevanti come la granularità citoplasmatica o la presenza di vacuoli.
Questo approccio consente di verificare che le decisioni del modello si basino su caratteristiche biologicamente sensate e non su artefatti, aumentando la trasparenza e la fiducia clinica nell’uso dell’AI.
Implicazioni cliniche e prospettive future
CytoDiffusion rappresenta un passo avanti sostanziale per la diagnostica ematologica assistita da AI, integrando robustezza al domain shift, rilevamento delle anomalie, quantificazione dell’incertezza ed elevata interpretabilità. Gli autori propongono un benchmark multidimensionale che va oltre la semplice accuratezza, includendo aspetti fondamentali per l’applicabilità clinica reale.
Restano alcune sfide, come il costo computazionale dell’inferenza e la scalabilità con l’aumento delle classi, ma strategie come distillazione e parallelizzazione aprono la strada a implementazioni pratiche. Nel lungo periodo, l’approccio generativo potrebbe estendersi ad altri ambiti dell’imaging medico, contribuendo a sistemi diagnostici più affidabili, trasparenti e vicini al ragionamento umano.
Domande frequenti su CytoDiffusion
Cos’è CytoDiffusion e cosa lo rende diverso dai modelli tradizionali?
CytoDiffusion è un modello di classificazione generativa basato su diffusion model che apprende la distribuzione completa delle morfologie cellulari, invece di limitarsi a separare classi con confini rigidi come fanno i modelli discriminativi.
Perché la quantificazione dell’incertezza è importante in ematologia?
L’incertezza consente di distinguere casi affidabili da quelli ambigui, permettendo un triage clinico efficace in cui l’automazione supporta, ma non sostituisce, il giudizio umano nei casi critici.
In che modo CytoDiffusion migliora il rilevamento delle anomalie?
Modellando la distribuzione delle cellule normali, CytoDiffusion identifica efficacemente cellule patologiche come out-of-distribution, raggiungendo sensibilità molto elevate su classi critiche come i blast.
CytoDiffusion è utilizzabile con pochi dati di addestramento?
Sì, il modello mantiene prestazioni elevate anche in regimi low-data, risultando particolarmente adatto a sottotipi rari e contesti clinici dove i dati etichettati sono limitati.