SleepFM: come il sonno predice 130 malattie da una sola notte

SleepFM è un modello fondazionale multimodale per l’analisi del sonno che dimostra come una sola notte di polisomnografia possa diventare uno strumento predittivo avanzato per la salute futura. Dalla mortalità per tutte le cause alla demenza, dall’infarto miocardico all’ictus, SleepFM riesce a stimare il rischio di 130 condizioni cliniche con un livello di accuratezza che supera molti modelli specialistici tradizionali, aprendo uno scenario radicalmente nuovo per la medicina predittiva basata su segnali fisiologici.

L’elemento di rottura non è soltanto la quantità di malattie previste, ma il metodo: SleepFM non si affida a dati clinici strutturati o a storie sanitarie pregresse, bensì estrae informazione predittiva direttamente dalla struttura fisiologica e temporale del sonno, integrando attività cerebrale, segnali cardiaci, attività muscolare e respirazione. In questo modo il sonno smette di essere un indicatore secondario e diventa un vero sensore longitudinale di rischio biologico.

Cosa leggere

Architettura di SleepFM e approccio multimodale

SleepFM nasce come risposta a uno dei limiti storici dell’analisi del sonno basata su intelligenza artificiale: la frammentazione dei modelli, spesso addestrati su singole coorti, singole configurazioni di sensori o compiti molto specifici come lo staging del sonno o la diagnosi di apnea. Il modello adotta invece una architettura agnostica rispetto ai canali, progettata per funzionare su configurazioni polisomnografiche eterogenee, tipiche dei dataset clinici reali.

I segnali grezzi vengono acquisiti a 128 Hz e segmentati in finestre temporali di 5 secondi, che diventano i token di input del modello. Ogni modalità fisiologica è processata da un codificatore convoluzionale unidimensionale composto da sei strati, con un’espansione progressiva dei canali da 1 a 128, normalizzazione e attivazione ELU. Questo passaggio consente di catturare pattern locali complessi, come micro-arousal, variazioni di frequenza cardiaca o instabilità respiratoria.

a , Configurazione PSG e statistiche del set di dati in diversi centri del sonno. Le barre mostrano il numero di registrazioni PSG indipendenti (partecipanti) per coorte e le corrispondenti ore totali di registrazione.
b , Preaddestramento contrastivo multimodale: i segnali grezzi di ciascuna modalità sono codificati da una CNN, gli embedding dei canali sono raggruppati all’interno della modalità e un trasformatore temporale con pooling temporale produce rappresentazioni a livello di sequenza per LOO-CL. C: canali, S: lunghezza della sequenza, D: dimensione dell’embedding.
c , Ottimizzazione tramite embedding congelati per attività a valle (stadiazione del sonno, rilevamento dell’apnea, previsione della malattia). Otto ore di embedding multimodali vengono aggregate in rappresentazioni a livello di paziente, concatenate con età e sesso e passate a un LSTM seguito da un livello completamente connesso.
d , Valutazione tra attività rappresentative e applicazioni cliniche. A sinistra e al centro: matrici di confusione per le categorie di stadiazione del sonno (SHHS) e AHI (SSC) mostrate come percentuali normalizzate per riga. A destra: performance di previsione della malattia nella coorte di Stanford (
n = 5.019 partecipanti). I box plot riassumono 1.000 ricampionamenti bootstrap a livello di paziente: punti deboli (disegni bootstrap individuali) e linea verticale con estremità (IC percentile bootstrap al 95%). Le etichette numeriche rappresentano le medie. Numero di campioni positivi per ciascuna malattia: CKD (354), decesso (224), demenza (221), scompenso cardiaco (283) e ictus (297).

La riduzione temporale avviene tramite pooling adattivo, che proietta i segnali in embedding da 128 dimensioni. Un elemento chiave è il pooling attention-based intra-modale, che rende l’architettura robusta a variazioni nel numero e nell’ordine dei canali tra diverse coorti cliniche. Successivamente, un trasformatore temporale a tre strati modella le dipendenze sequenziali su finestre di 5 minuti, integrando una codifica posizionale sinusoidale per preservare la struttura temporale del sonno.

Il risultato è un embedding multimodale compatto, informativo e trasferibile, che costituisce la base per il pre-addestramento auto-supervisionato e per i successivi compiti clinici.

Pre-addestramento contrastivo e apprendimento senza etichette

Il cuore concettuale di SleepFM è l’uso di un apprendimento contrastivo leave-one-out, una strategia che consente di sfruttare enormi quantità di dati non etichettati. Durante il pre-addestramento, il modello viene esposto a oltre 432.000 ore di registrazioni provenienti da circa 48.000 partecipanti, appartenenti a più coorti eterogenee.

I singoli punti rappresentano una malattia all’interno di una categoria. I risultati vengono valutati utilizzando due parametri: il C-Index, che misura la capacità del modello di classificare accuratamente il rischio del paziente, e l’AUROC a 6 anni, che valuta le prestazioni di discriminazione del modello valutandone la capacità di distinguere tra pazienti che manifestano l’evento di interesse e pazienti che non lo manifestano entro una finestra di previsione di 6 anni. A titolo di riferimento, la linea tratteggiata orizzontale indica una soglia di 0,75.

Il principio è semplice ma potente: una modalità fisiologica viene esclusa e il modello è addestrato a predirne la rappresentazione latente a partire dalle altre. In questo modo SleepFM impara le relazioni strutturali tra segnali diversi, come il legame tra attività cerebrale e respirazione o tra variabilità cardiaca e stadi del sonno. La perdita contrastiva, basata su similarità coseno con temperatura scalabile, forza l’allineamento delle rappresentazioni multimodali nello spazio latente.

Questo approccio riduce drasticamente la dipendenza da annotazioni manuali, notoriamente costose e soggette a variabilità inter-esperto, e permette al modello di catturare pattern fisiologici fondamentali del sonno umano. Il pre-addestramento, completato in circa 15 ore su GPU A100, produce un modello con 4,44 milioni di parametri, sorprendentemente compatto rispetto ai foundation model di altri ambiti.

Prestazioni sui compiti standard di analisi del sonno

Un test cruciale per qualsiasi modello fondazionale è la sua capacità di competere con sistemi specializzati nei compiti classici. SleepFM dimostra prestazioni solide nello staging del sonno, distinguendo veglia, stadi N1, N2, N3 e REM su finestre di 5 secondi. Su coorti come Stanford, MESA, MrOS e SHHS, il modello raggiunge F1 medi tra 0,70 e 0,78, valori comparabili o superiori a sistemi consolidati come U-Sleep, YASA, GSSC e STAGES.

A causa delle differenze nei dati di outcome disponibili tra i dataset SHHS e Stanford, la valutazione è stata limitata a un sottoinsieme di condizioni. I risultati dimostrano capacità di apprendimento trasferibile su questi esiti clinici chiave, tra cui ictus, scompenso cardiaco congestizio e mortalità correlata a malattie cardiovascolari. Ogni pannello utilizza grafici a barre derivati da bootstrap a livello di 1.000 pazienti: i punti deboli sono disegni bootstrap individuali e la linea verticale con estremità terminali indica l’intervallo di confidenza percentile bootstrap al 95%. I numeri sopra le barre indicano la media. Le metriche sono C-Index (in alto) e AUROC a 6 anni (in basso). Il numero di campioni positivi per ciascun esito è il seguente: angina (704), decesso per malattie cardiovascolari (128), scompenso cardiaco congestizio (190), decesso per coronaropatia (80), infarto del miocardio (103) e ictus (95). Tutte le condizioni sono statisticamente significative con un valore
*di P* <0,01 dopo correzione di Bonferroni.

La robustezza emerge soprattutto negli stadi transizionali, dove anche l’annotazione umana presenta forte variabilità. La validazione esterna su dataset completamente esclusi dall’addestramento, come DCSM e HMC, conferma una buona capacità di generalizzazione, con F1 rispettivamente di 0,68 e 0,55, superando modelli baseline addestrati end-to-end.

SleepFM mostra inoltre buone prestazioni nella classificazione dell’apnea del sonno, raggiungendo un’accuratezza compresa tra 0,69 e 0,87 a seconda della severità e della coorte. Questi risultati indicano che il modello non sacrifica le capacità diagnostiche tradizionali a favore dei compiti predittivi, ma integra entrambe le dimensioni.

Predizione di 130 malattie da una sola notte di sonno

Il risultato più dirompente di SleepFM riguarda la predizione longitudinale delle malattie. Utilizzando embedding congelati e una fase di fine-tuning mirata, il modello viene addestrato a prevedere l’esordio futuro di 1.041 fenotipi clinici, mappati da codici EHR a phecodes, escludendo condizioni con prevalenza inferiore all’1,5%.

SleepFM e il modello PSG end-to-end includono caratteristiche demografiche basate su età e sesso, mentre il modello basato solo sui dati demografici include età, sesso, BMI e razza/etnia. Ogni riquadro mostra la distribuzione dei miglioramenti percentuali a livello di malattia di SleepFM rispetto a ciascun basale all’interno della categoria di malattia indicata. I miglioramenti sono mostrati sia per le metriche C-Index (in alto) che per quelle AUROC a 6 anni (in basso). I riquadri rappresentano l’intervallo interquartile (IQR), con baffi che si estendono fino a 1,5x IQR e valori anomali rappresentati come punti. I rombi indicano il miglioramento medio all’interno di ciascuna categoria. La linea tratteggiata orizzontale a zero indica l’assenza di miglioramento.

La funzione di perdita è basata su Cox proportional hazards multilabel, che consente di modellare il tempo all’evento per ciascuna condizione. I risultati mostrano che 130 malattie raggiungono un C-Index o AUROC ≥ 0,75, partendo da una singola registrazione notturna. Alcuni esempi emblematici includono una mortalità per tutte le cause a 0,84, demenza a 0,85, infarto miocardico a 0,81, insufficienza cardiaca a 0,80, malattia renale cronica a 0,79, ictus a 0,78 e fibrillazione atriale a 0,78.

Le prestazioni sono particolarmente elevate in ambiti neurologici e neurodegenerativi, con AUROC di 0,93 per il Parkinson e 0,84 per l’impairment cognitivo lieve, suggerendo che il sonno contenga segnali precoci di declino cerebrale ben prima della diagnosi clinica. Anche in oncologia emergono risultati rilevanti, con predizioni robuste per tumore alla prostata, tumore al seno e melanoma.

Generalizzazione temporale e trasferibilità clinica

Uno dei rischi principali dei modelli clinici basati su dati storici è la degradazione delle prestazioni nel tempo. SleepFM è stato testato su una coorte Stanford post-2020, completamente esclusa dall’addestramento, mantenendo C-Index significativi per mortalità, insufficienza cardiaca e demenza. Questo indica una resilienza ai cambiamenti nelle pratiche cliniche e nelle popolazioni di riferimento.

Ancora più rilevante è il test di transfer learning su nuove coorti, come lo Sleep Heart Health Study, escluso dal pre-addestramento. Con un fine-tuning minimo su circa 3.300 partecipanti e test su 2.000 soggetti, SleepFM predice condizioni cardiovascolari critiche come ictus, insufficienza cardiaca congestizia e mortalità cardiovascolare con AUROC fino a 0,88, simulando uno scenario di deployment reale con supervisione limitata.

Confronto con baseline e modelli end-to-end

SleepFM supera in modo sistematico i baseline demografici, basati su età, sesso, BMI ed etnia, con guadagni di AUROC tra il 5% e il 17%, particolarmente marcati per disturbi neurologici, ematopoietici e cardiovascolari. Anche rispetto a modelli end-to-end addestrati direttamente sui segnali grezzi senza pre-addestramento, SleepFM mostra un vantaggio netto, soprattutto in condizioni complesse come demenza senile, aterosclerosi e diabete con complicanze circolatorie.

Un aspetto cruciale è la scalabilità del fine-tuning: anche utilizzando solo il 10% dei dati, SleepFM supera baseline addestrati su dataset cinque volte più grandi, evidenziando l’efficienza degli embedding pre-addestrati.

Implicazioni cliniche e prospettive future

SleepFM ridefinisce il ruolo del sonno nella medicina digitale, dimostrando che le dinamiche notturne non sono solo un riflesso dello stato di salute attuale, ma un indicatore predittivo di traiettorie patologiche future. Questo apre la strada a sistemi di screening non invasivi, basati su una singola notte di registrazione, potenzialmente integrabili con EHR, dati omici e imaging. Restano tuttavia alcune sfide, tra cui il bias di selezione delle coorti cliniche, la necessità di maggiore interpretabilità caso-specifica e il rischio di degradazione su popolazioni completamente diverse. Le analisi stratificate per stadi del sonno e modalità fisiologiche rappresentano un primo passo verso una spiegabilità più fine, ma ulteriori sviluppi saranno necessari per un’adozione clinica su larga scala.

Domande frequenti su SleepFM

SleepFM può essere usato come strumento diagnostico clinico?

SleepFM non è progettato come strumento diagnostico diretto, ma come modello predittivo di rischio. Le sue stime indicano probabilità future di malattia e devono essere interpretate come supporto decisionale per il clinico, non come diagnosi automatica.

Perché il sonno è così informativo per la predizione delle malattie?

Il sonno integra segnali neurologici, cardiovascolari, respiratori e metabolici in modo continuo. Alterazioni sottili nella sua struttura riflettono disfunzioni sistemiche precoci, spesso invisibili negli esami clinici standard.

SleepFM funziona anche con configurazioni di sensori diverse?

Sì, l’architettura è progettata per essere agnostica rispetto al numero e all’ordine dei canali, rendendola adatta a dataset polisomnograﬁci eterogenei e a contesti clinici reali.

Quali sono i principali limiti attuali di SleepFM?

I limiti principali riguardano la rappresentatività delle coorti, la complessità interpretativa delle predizioni e la necessità di validazioni prospettiche su larga scala prima dell’uso routinario in clinica.

Iscriviti alla Newsletter

Non perdere le analisi settimanali: Entra nella Matrice Digitale.

Matrice Digitale partecipa al Programma Affiliazione Amazon EU. In qualità di Affiliato Amazon, ricevo un guadagno dagli acquisti idonei. Questo non influenza i prezzi per te.