La medicina è una disciplina intrinsecamente multimodale, che richiede l’interpretazione di dati provenienti da diverse fonti come immagini mediche, note cliniche, test di laboratorio e registri sanitari elettronici. Negli ultimi dieci anni, i sistemi di IA hanno raggiunto prestazioni a livello esperto in compiti specifici all’interno di modalità specifiche. Google, in un recente post sul blog, ha delineato un ventaglio di approcci per portare le capacità multimodali ai grandi modelli di linguaggio (LLM) e ha condiviso alcuni risultati entusiasmanti sulla realizzabilità di LLM medici multimodali.
Un spettro di approcci
Google ha considerato tre approcci generali per costruire LLM multimodali: l’uso degli strumenti, l’innesto dei modelli e i sistemi generalisti.
- Uso degli strumenti: Un LLM medico centrale esternalizza l’analisi dei dati a un insieme di sottosistemi software ottimizzati per quei compiti. Questo approccio offre flessibilità e indipendenza tra i sottosistemi, ma può esporre a rischi di incomprensione e perdita di informazioni.
- Innesto dei modelli: Questo approccio integra una rete neurale specializzata per ogni dominio rilevante direttamente nell’LLM. Google ha dimostrato che questo è fattibile, ad esempio, mappando i dati da una nuova modalità nello spazio di incorporamento delle parole già familiare all’LLM.
- Sistemi generalisti: L’approccio più radicale è costruire un sistema integrato e completamente generalista in grado di assorbire informazioni da tutte le fonti. Google ha sviluppato Med-PaLM M, un modello generativo multimodale che codifica e interpreta dati biomedici, inclusi linguaggio clinico, imaging e genomi.
Applicazioni e potenzialità
I sistemi multimodali medici di IA potrebbero servire come base per nuove tecnologie assistive che coprono la medicina professionale, la ricerca medica e le applicazioni consumer. Google sottolinea la necessità di una valutazione attenta di queste tecnologie in collaborazione con la comunità medica e l’ecosistema sanitario.
L’IA multimodale in medicina rappresenta un campo in rapida evoluzione con un potenziale significativo per migliorare la diagnosi, il trattamento e la ricerca medica. Gli approcci delineati da Google offrono una visione del futuro dell’IA in medicina, ma richiederanno ulteriori ricerche e collaborazioni per realizzare appieno le loro promesse.