Sommario
Nel corso del 2025, uno studio congiunto della New York University e della University of Pennsylvania ha documentato in modo sistematico come i modelli linguistici di grandi dimensioni (LLM) falliscano nei compiti di ragionamento etico medico e nei classici puzzle di pensiero laterale, evidenziando limiti intrinseci nelle architetture basate su apprendimento statistico. Lo studio, pubblicato su npj Digital Medicine, rappresenta una tappa fondamentale nella valutazione critica delle tecnologie AI applicate alla sanità digitale, ponendo l’accento sulla necessità di valutazioni rigorose e supervisionate prima dell’integrazione clinica. Gli autori applicano la teoria del doppio processo, secondo cui l’intelligenza si articola in due sistemi: uno intuitivo e veloce (Sistema 1) e uno analitico e deliberativo (Sistema 2). I modelli testati, tra cui versioni commerciali di ChatGPT e Gemini, mostrano una chiara inclinazione per il primo, rispondendo in maniera intuitiva e associativa a situazioni che richiederebbero invece una riflessione razionale, con gravi implicazioni per l’affidabilità in contesti sanitari.
Teoria del doppio processo: metafora cognitiva e fallimenti AI
Nel tentativo di spiegare la rigidità osservata, i ricercatori utilizzano la teoria del doppio processo come cornice interpretativa. Il comportamento dei modelli ricalca il funzionamento del Sistema 1 umano, incline a risposte rapide ma spesso fallaci in presenza di ambiguità o twist logici. Questo approccio serve da metafora e non implica una corrispondenza neurologica con la cognizione umana. I modelli linguistici, pur possedendo capacità generative avanzate, tendono a favorire sequenze ad alta probabilità, producendo risposte basate su pattern comuni piuttosto che sull’analisi delle specificità contestuali. Questo li rende particolarmente vulnerabili in ambito etico, dove ogni dettaglio può rovesciare il senso della situazione. Le performance peggiorano in presenza di alterazioni lievi ma significative, come nel caso del chirurgo che è il padre o la madre del paziente: i modelli assumono pregiudizi noti, ignorando modifiche esplicite nel testo. Gli autori propongono che per stimolare un comportamento analogo al Sistema 2, sia necessario l’impiego di prompt strutturati e tecniche come il chain-of-thought, che guidano il modello in un processo stepwise più analitico.
Metodologia: sette modelli, cento prompt, due domini
L’esperimento prevede la somministrazione di dieci versioni distorte per ciascun quesito, sia nei puzzle laterali classici, sia in scenari etici medicalizzati, per testare la consistenza delle risposte. I modelli analizzati includono varianti recenti come ChatGPT-o1, ChatGPT-o3, Gemini 1.5 Flash, e altri non identificati pubblicamente. Tutti i test sono eseguiti in interfacce pubbliche e controllate, senza manipolazione dei prompt né suggerimenti diretti. I risultati sono analizzati secondo una metrica binaria di correttezza e suddivisi per tipologia di errore, distinguendo risposte letterali, generalizzate, fuori contesto o logicamente fallaci. Gli scenari etici sono costruiti su casi classici, come quelli relativi a HIV disclosure, trasfusioni pediatriche, e priorità nei trapianti, adattati per testare la sensibilità ai dettagli clinici e morali.
Risultati: tassi di errore superiori al 90% nei dilemmi etici
I dati raccolti mostrano una frequenza di errore molto elevata: nei puzzle laterali, l’errore medio si attesta al 75%, con picchi del 92% su scenari ambigui. Nei casi di etica medica, l’errore supera il 96% in alcuni prompt. Anche i modelli più avanzati, come ChatGPT-o3, offrono solo miglioramenti marginali, fallendo nella comprensione di implicazioni contestuali chiave. In un esempio significativo, un caso clinico includeva l’informazione che il partner era già a conoscenza della condizione HIV, ma i modelli consigliavano comunque di rivelare la diagnosi, ignorando il dettaglio e suggerendo azioni non necessarie. In un altro scenario, veniva posta una questione su una trasfusione in presenza di consenso dei genitori, e i modelli assumevano erroneamente un rifiuto, replicando risposte di training tipiche. Questa inconsistenza semantica, unita alla bassa variabilità tra le dieci esecuzioni dello stesso test, indica una rigidità sistemica nel modello, non un semplice errore stocastico. I modelli rispondono come se “sapessero già” la risposta corretta secondo il pattern più comune, e non si adattano al contenuto del caso. Questo rafforza l’analisi fondata sulla teoria del doppio processo.
Implicazioni cliniche, regolatorie e cognitive
I risultati dello studio implicano rischi considerevoli per la sanità digitale, soprattutto laddove gli LLM vengono impiegati per supportare decisioni cliniche, didattica medica o interazioni paziente-IA. La capacità dei modelli di emulare empatia o comunicazione sensibile non si accompagna a comprensione etica profonda, e questo può tradursi in raccomandazioni distorte o dannose. Nel contesto educativo, la diffusione di tutorial basati su IA potrebbe portare a normalizzazione di risposte fallaci, rafforzando bias impliciti nei futuri operatori sanitari. A livello normativo, gli autori richiamano la necessità di test specifici per usi etici nei modelli impiegati in ambiente clinico, e propongono framework ibridi che combinino l’intuitività dell’IA con supervisione umana costante. I modelli analizzati, pur essendo progettati per interagire in linguaggio naturale, non sono in grado di gestire la complessità culturale, psicologica e morale di decisioni cliniche reali. I ricercatori osservano anche una mancanza di adattabilità inter-culturale, che mina l’inclusività dei sistemi, particolarmente in contesti sanitari remoti o ad alta variabilità sociale.
Considerazioni etiche e responsabilità sistemiche
Lo studio affronta direttamente le implicazioni etiche dell’uso di AI in medicina. L’addestramento su dataset sanitari pubblici e privati espone al rischio di violazioni della privacy e re-identificazione involontaria. In parallelo, il comportamento errato dei modelli apre la questione della responsabilità legale e morale: chi è responsabile per una raccomandazione eticamente fallace prodotta da un sistema AI? Gli autori insistono sull’urgenza di meccanismi di auditing etico, capaci di valutare bias culturali, stereotipi medici e limiti semantici. Le applicazioni avanzate dell’IA, se non regolamentate, rischiano di amplificare disparità sanitarie, favorendo solo regioni dotate di competenze per interpretare e correggere le risposte generate. Lo studio si astiene dall’utilizzare dati paziente reali, garantendo un quadro di test rispettoso della privacy, ma sottolinea che modelli implementati in ambienti clinici dovranno affrontare questioni di accesso equo, trasparenza algoritmica e impatti socio-culturali.
Sviluppi futuri: adattabilità e architetture ibride
Per superare i limiti evidenziati, i ricercatori propongono un programma di ricerca che includa:
- Prompt avanzati basati su chain-of-thought, che forzino i modelli a strutturare il ragionamento per step;
- Dataset costruiti attorno a twist etici e dilemmi ambigui, per evitare risposte automatizzate;
- Architetture ibride che combinino reti neurali con sistemi basati su regole etiche e contesto culturale;
- Feedback umano continuo, integrato nel loop di training e validazione;
- Metriche di adattabilità semantica che sostituiscano le sole performance lessicali.
L’obiettivo è portare i tassi di errore da oltre il 90% a meno del 50% nelle simulazioni etiche, attraverso una valutazione più sofisticata della variabilità e dei margini contestuali. L’integrazione con dati multimodali (testo, voce, immagine) potrebbe aumentare la profondità cognitiva dei modelli. Un modello linguistico di grandi dimensioni opera generando output sulla base di massime probabilità apprese durante la fase di addestramento. Questa architettura si fonda su transformer multi-head attention, che valuta token nel contesto di sequenze precedenti. L’assenza di meccanismi per distinguere informazioni critiche ma rare comporta una generalizzazione errata nei casi liminali. Solo interventi espliciti, come la strutturazione del ragionamento e l’uso di dataset ambigui, possono forzare l’emergere di una modalità analitica vicina al Sistema 2 della teoria del doppio processo.