GPT-4 e creatività divergente: cosa rivela il test DAT rispetto agli esseri umani

GPT-4 supera la media umana nella creatività divergente, secondo una ricerca pubblicata nel 2026 su Scientific Reports che ha confrontato le prestazioni di grandi modelli linguistici con quelle di oltre 100.000 partecipanti umani. Il risultato centrale è netto ma non trionfalistico: i modelli di linguaggio di grandi dimensioni possono eccellere nei test standardizzati di creatività divergente, ma non raggiungono i livelli dei soggetti umani più creativi. La creatività, suggerisce lo studio, resta un fenomeno stratificato che non si esaurisce nella distanza semantica tra parole.

Cosa leggere

Il Divergent Association Task come misura della creatività

Annuncio

Il cuore della ricerca è il Divergent Association Task (DAT), un test che richiede di produrre una lista di parole semanticamente il più possibile distanti tra loro. Il punteggio deriva dalla distanza media tra le rappresentazioni semantiche dei termini, calcolata tramite modelli di embedding linguistico. Più le parole sono concettualmente lontane, più alto è il punteggio di creatività divergente.

Confronto tra LLM e umani nel compito di associazione divergente (DAT). Riepilogo delle prestazioni DAT nei campioni LLM e umani. (
A ) Punteggio DAT medio e intervalli di confidenza al 95%. (
B ) Mappa di calore di tutti i contrasti, generata utilizzando t-test indipendenti bilaterali, ordinati in base alla loro correlazione con il modello più performante, GPT-4. (
C ) Distribuzione per ciascun modello utilizzando un grafico a cresta di stime di densità del kernel levigate. Le linee verticali nere rappresentano la media e i piccoli grafici a torta neri/grigi mostrano l’aderenza immediata dei modelli (ovvero la proporzione di risposte valide). (
D ) Parole più frequenti nelle risposte. Le percentuali rappresentano la proporzione di set di risposte (10 parole) che includono queste parole. *:
p < 0,05, **:
p < 0,01, ***:
p < 0,001.

Applicato a una popolazione umana ampia e a diversi modelli IA, il DAT consente un confronto quantitativo diretto. In questo contesto, GPT-4 ottiene punteggi che superano circa il 70% degli esseri umani, collocandosi sopra la media generale. Tuttavia, quando il confronto si restringe al 50% più creativo della popolazione umana, il modello resta indietro, evidenziando un limite strutturale: l’IA eccelle nella media, non nell’eccezione.

Prestazioni dei modelli linguistici a confronto

Lo studio non si limita a un singolo modello. Accanto a GPT-4, vengono analizzati altri sistemi, tra cui Gemini Pro e Vicuna, mostrando un panorama meno lineare di quanto si potrebbe immaginare. Gemini Pro si avvicina alla media umana, mentre Vicuna, pur essendo un modello più piccolo, supera in alcuni casi modelli più grandi e teoricamente più potenti.

Punteggi medi di creatività per un’ampia gamma di modelli linguistici di grandi dimensioni (LLM) e campioni umani nel Divergent Association Task (DAT). I modelli sono classificati dal punteggio medio più basso a quello più alto, con barre di errore che indicano intervalli di confidenza del 95%. Per gli esseri umani, ogni barra rappresenta la media di un sottocampione casuale di 500 risposte (
n = 500), estratto dalla distribuzione completa (
N = 100.000) o limitato al 50% (
N = 50.000), 25% (
N = 25.000) o 10% (
N = 10.000) delle risposte. Per gli LLM, ogni barra rappresenta la media di 500 risposte generate dal modello.

Un dato significativo riguarda le versioni successive di GPT-4: GPT-4-turbo mostra un calo nelle prestazioni di creatività divergente, suggerendo un trade-off tra efficienza, velocità e diversità semantica. Questo risultato mette in discussione l’idea che ogni nuova iterazione di un modello debba necessariamente migliorare su tutte le dimensioni cognitive.

Il ruolo cruciale di temperatura e prompt

Un aspetto centrale dello studio è l’analisi degli iperparametri, in particolare della temperatura di generazione. A temperature più elevate, GPT-4 produce risposte più variabili, esplorando regioni semantiche più distanti. Con temperatura impostata a 1,5, il modello raggiunge uno dei punteggi DAT più alti dell’intero campione, superando nettamente la media umana.

Confronto tra DAT e condizioni di controllo in tutti gli LLM. Prestazioni di ciascun modello quando vengono fornite le istruzioni DAT originali rispetto a quando viene richiesto di scrivere un elenco generico di dieci parole. Ogni contrasto è ordinato in ordine crescente in base alla prestazione media nel rispondere alle istruzioni DAT. ***:
p < 0,001.

Anche le strategie di prompt incidono in modo significativo. Prompt che incoraggiano l’uso di etimologie diverse o l’esplorazione di radici linguistiche lontane migliorano sensibilmente i risultati. Al contrario, strategie basate su opposizioni o sinonimi tendono a ridurre la distanza semantica. Questo dimostra che la creatività dei modelli non è una proprietà fissa, ma emerge dall’interazione tra architettura, parametri e istruzioni.

Dalla lista di parole alla scrittura creativa

Per evitare che il DAT resti un esercizio astratto, i ricercatori estendono l’analisi a compiti di scrittura creativa, includendo haiku, sinossi narrative e flash fiction. Qui entrano in gioco nuove metriche, come la Divergent Semantic Integration (DSI), che misura quanto un testo integri idee semanticamente distanti, e la complessità di Lempel-Ziv, usata come proxy della diversità testuale.

Punteggi di creatività GPT-4 ai vari livelli di temperatura. Prestazioni variabili ai vari livelli di temperatura in GPT-4 utilizzando le istruzioni DAT originali. Ogni condizione include
n = 500 generazioni. (
A ) Distribuzioni dei punteggi per ciascun livello di temperatura (Basso: 0,5, Medio: 1,0, Alto: 1,5). Le linee verticali nere rappresentano la mediana. (
B ) Diagramma a barre dei punteggi medi per ciascun livello di temperatura con risultati dei t-test indipendenti bilaterali per ciascun contrasto. (
C ) Riepilogo qualitativo delle risposte che mostra le 10 parole più frequenti tra le ripetizioni all’interno di ciascuna condizione di temperatura. ***:
p < 0,001.

In questi compiti, GPT-4 supera sistematicamente altri modelli, ma gli esseri umani mantengono un vantaggio netto nella complessità. In particolare negli haiku, dove i vincoli formali sono stringenti, la creatività umana emerge con maggiore forza. Le analisi PCA mostrano cluster distinti: i testi umani occupano regioni dello spazio semantico diverse da quelle dei modelli IA, a indicare stili cognitivi non sovrapponibili.

Cosa ci dice davvero questo studio sulla creatività

Il risultato più rilevante non è che l’IA “batte” l’uomo, ma che batte la media utilizzando metriche specifiche e controllabili. I ricercatori sottolineano che la creatività umana di alto livello resta fuori portata, almeno per ora. Inoltre, la creatività misurata dal DAT è solo una dimensione del fenomeno creativo, fortemente legata alla novità semantica, ma non necessariamente alla pertinenza culturale, all’esperienza vissuta o al valore estetico.

Valutazione creativa di LLM e sinossi generate da esseri umani. Panoramica del livello di divergenza semantica nelle sinossi generate da esseri umani e LLM ad alte prestazioni utilizzando diverse metodologie. (
A ) Distribuzioni dei valori DSI su tutti i modelli e partecipanti umani. (
B ) Diagramma di dispersione della PCA bidimensionale eseguita su tutti gli embedding delle sinossi. (
C ) Distribuzioni dei valori DSI su tutti i livelli di temperatura per GPT-4. (
D ) Distribuzione della complessità LZ normalizzata su modelli e partecipanti umani. *:
p < .05, **:
p < .01, ***:
p < .001.

Il fatto che prompt e temperatura possano modificare radicalmente le prestazioni indica che i modelli linguistici non possiedono creatività in senso umano, ma simulano processi di esplorazione che ricordano alcune fasi del pensiero divergente umano. Questo apre però uno spazio operativo concreto per collaborazioni uomo-macchina, in cui l’IA funge da amplificatore di possibilità, non da sostituto dell’intuizione umana.

Implicazioni per ricerca, educazione e industria creativa

Le implicazioni sono rilevanti per la ricerca cognitiva e per l’industria. Se modelli come GPT-4 possono superare la media umana in test di creatività divergente, diventano strumenti potenti per supportare fasi di ideazione, brainstorming e scrittura preliminare. Al tempo stesso, la distanza che li separa dai migliori creativi umani suggerisce che il valore distintivo resterà nella curatela, selezione e integrazione significativa delle idee.

Modelli IA superano la media umana nella creatività divergente, ma non i più creativi 9

Gli autori invitano a sviluppare benchmark futuri che combinino metriche automatiche e valutazioni umane, evitando di ridurre la creatività a un singolo numero. La creatività, concludono, è un costrutto multidimensionale e dinamico, e l’IA ne rappresenta oggi una nuova componente, non un punto di arrivo.

Domande frequenti su GPT-4 e creatività divergente

Che cos’è il Divergent Association Task?

Il Divergent Association Task è un test di creatività divergente che misura la capacità di produrre parole semanticamente molto distanti tra loro, utilizzando modelli computazionali per calcolare la distanza concettuale.

GPT-4 è più creativo degli esseri umani?

GPT-4 supera la media degli esseri umani nei test di creatività divergente, ma resta sotto il livello dei soggetti umani più creativi, soprattutto in compiti complessi di scrittura.

Perché la temperatura influenza la creatività dei modelli?

La temperatura controlla il grado di casualità nella generazione del testo. Valori più alti aumentano l’esplorazione dello spazio semantico, producendo risposte più varie e creative.

Questi risultati significano che l’IA sostituirà i creativi umani?

No. I risultati indicano che l’IA può supportare e amplificare i processi creativi, ma la creatività umana di alto livello resta legata a esperienza, contesto e giudizio che i modelli non replicano.

Iscriviti alla Newsletter

Non perdere le analisi settimanali: Entra nella Matrice Digitale.

Matrice Digitale partecipa al Programma Affiliazione Amazon EU. In qualità di Affiliato Amazon, ricevo un guadagno dagli acquisti idonei. Questo non influenza i prezzi per te.