GPT-4 supera la media umana nella creatività divergente, secondo una ricerca pubblicata nel 2026 su Scientific Reports che ha confrontato le prestazioni di grandi modelli linguistici con quelle di oltre 100.000 partecipanti umani. Il risultato centrale è netto ma non trionfalistico: i modelli di linguaggio di grandi dimensioni possono eccellere nei test standardizzati di creatività divergente, ma non raggiungono i livelli dei soggetti umani più creativi. La creatività, suggerisce lo studio, resta un fenomeno stratificato che non si esaurisce nella distanza semantica tra parole.
Cosa leggere
Il Divergent Association Task come misura della creatività
Il cuore della ricerca è il Divergent Association Task (DAT), un test che richiede di produrre una lista di parole semanticamente il più possibile distanti tra loro. Il punteggio deriva dalla distanza media tra le rappresentazioni semantiche dei termini, calcolata tramite modelli di embedding linguistico. Più le parole sono concettualmente lontane, più alto è il punteggio di creatività divergente.

A ) Punteggio DAT medio e intervalli di confidenza al 95%. (
B ) Mappa di calore di tutti i contrasti, generata utilizzando t-test indipendenti bilaterali, ordinati in base alla loro correlazione con il modello più performante, GPT-4. (
C ) Distribuzione per ciascun modello utilizzando un grafico a cresta di stime di densità del kernel levigate. Le linee verticali nere rappresentano la media e i piccoli grafici a torta neri/grigi mostrano l’aderenza immediata dei modelli (ovvero la proporzione di risposte valide). (
D ) Parole più frequenti nelle risposte. Le percentuali rappresentano la proporzione di set di risposte (10 parole) che includono queste parole. *:
p < 0,05, **:
p < 0,01, ***:
p < 0,001.
Applicato a una popolazione umana ampia e a diversi modelli IA, il DAT consente un confronto quantitativo diretto. In questo contesto, GPT-4 ottiene punteggi che superano circa il 70% degli esseri umani, collocandosi sopra la media generale. Tuttavia, quando il confronto si restringe al 50% più creativo della popolazione umana, il modello resta indietro, evidenziando un limite strutturale: l’IA eccelle nella media, non nell’eccezione.
Prestazioni dei modelli linguistici a confronto
Lo studio non si limita a un singolo modello. Accanto a GPT-4, vengono analizzati altri sistemi, tra cui Gemini Pro e Vicuna, mostrando un panorama meno lineare di quanto si potrebbe immaginare. Gemini Pro si avvicina alla media umana, mentre Vicuna, pur essendo un modello più piccolo, supera in alcuni casi modelli più grandi e teoricamente più potenti.

n = 500), estratto dalla distribuzione completa (
N = 100.000) o limitato al 50% (
N = 50.000), 25% (
N = 25.000) o 10% (
N = 10.000) delle risposte. Per gli LLM, ogni barra rappresenta la media di 500 risposte generate dal modello.
Un dato significativo riguarda le versioni successive di GPT-4: GPT-4-turbo mostra un calo nelle prestazioni di creatività divergente, suggerendo un trade-off tra efficienza, velocità e diversità semantica. Questo risultato mette in discussione l’idea che ogni nuova iterazione di un modello debba necessariamente migliorare su tutte le dimensioni cognitive.
Il ruolo cruciale di temperatura e prompt
Un aspetto centrale dello studio è l’analisi degli iperparametri, in particolare della temperatura di generazione. A temperature più elevate, GPT-4 produce risposte più variabili, esplorando regioni semantiche più distanti. Con temperatura impostata a 1,5, il modello raggiunge uno dei punteggi DAT più alti dell’intero campione, superando nettamente la media umana.

p < 0,001.
Anche le strategie di prompt incidono in modo significativo. Prompt che incoraggiano l’uso di etimologie diverse o l’esplorazione di radici linguistiche lontane migliorano sensibilmente i risultati. Al contrario, strategie basate su opposizioni o sinonimi tendono a ridurre la distanza semantica. Questo dimostra che la creatività dei modelli non è una proprietà fissa, ma emerge dall’interazione tra architettura, parametri e istruzioni.
Dalla lista di parole alla scrittura creativa
Per evitare che il DAT resti un esercizio astratto, i ricercatori estendono l’analisi a compiti di scrittura creativa, includendo haiku, sinossi narrative e flash fiction. Qui entrano in gioco nuove metriche, come la Divergent Semantic Integration (DSI), che misura quanto un testo integri idee semanticamente distanti, e la complessità di Lempel-Ziv, usata come proxy della diversità testuale.

n = 500 generazioni. (
A ) Distribuzioni dei punteggi per ciascun livello di temperatura (Basso: 0,5, Medio: 1,0, Alto: 1,5). Le linee verticali nere rappresentano la mediana. (
B ) Diagramma a barre dei punteggi medi per ciascun livello di temperatura con risultati dei t-test indipendenti bilaterali per ciascun contrasto. (
C ) Riepilogo qualitativo delle risposte che mostra le 10 parole più frequenti tra le ripetizioni all’interno di ciascuna condizione di temperatura. ***:
p < 0,001.
In questi compiti, GPT-4 supera sistematicamente altri modelli, ma gli esseri umani mantengono un vantaggio netto nella complessità. In particolare negli haiku, dove i vincoli formali sono stringenti, la creatività umana emerge con maggiore forza. Le analisi PCA mostrano cluster distinti: i testi umani occupano regioni dello spazio semantico diverse da quelle dei modelli IA, a indicare stili cognitivi non sovrapponibili.
Cosa ci dice davvero questo studio sulla creatività
Il risultato più rilevante non è che l’IA “batte” l’uomo, ma che batte la media utilizzando metriche specifiche e controllabili. I ricercatori sottolineano che la creatività umana di alto livello resta fuori portata, almeno per ora. Inoltre, la creatività misurata dal DAT è solo una dimensione del fenomeno creativo, fortemente legata alla novità semantica, ma non necessariamente alla pertinenza culturale, all’esperienza vissuta o al valore estetico.

A ) Distribuzioni dei valori DSI su tutti i modelli e partecipanti umani. (
B ) Diagramma di dispersione della PCA bidimensionale eseguita su tutti gli embedding delle sinossi. (
C ) Distribuzioni dei valori DSI su tutti i livelli di temperatura per GPT-4. (
D ) Distribuzione della complessità LZ normalizzata su modelli e partecipanti umani. *:
p < .05, **:
p < .01, ***:
p < .001.
Il fatto che prompt e temperatura possano modificare radicalmente le prestazioni indica che i modelli linguistici non possiedono creatività in senso umano, ma simulano processi di esplorazione che ricordano alcune fasi del pensiero divergente umano. Questo apre però uno spazio operativo concreto per collaborazioni uomo-macchina, in cui l’IA funge da amplificatore di possibilità, non da sostituto dell’intuizione umana.
Implicazioni per ricerca, educazione e industria creativa
Le implicazioni sono rilevanti per la ricerca cognitiva e per l’industria. Se modelli come GPT-4 possono superare la media umana in test di creatività divergente, diventano strumenti potenti per supportare fasi di ideazione, brainstorming e scrittura preliminare. Al tempo stesso, la distanza che li separa dai migliori creativi umani suggerisce che il valore distintivo resterà nella curatela, selezione e integrazione significativa delle idee.

Gli autori invitano a sviluppare benchmark futuri che combinino metriche automatiche e valutazioni umane, evitando di ridurre la creatività a un singolo numero. La creatività, concludono, è un costrutto multidimensionale e dinamico, e l’IA ne rappresenta oggi una nuova componente, non un punto di arrivo.
Domande frequenti su GPT-4 e creatività divergente
Che cos’è il Divergent Association Task?
Il Divergent Association Task è un test di creatività divergente che misura la capacità di produrre parole semanticamente molto distanti tra loro, utilizzando modelli computazionali per calcolare la distanza concettuale.
GPT-4 è più creativo degli esseri umani?
GPT-4 supera la media degli esseri umani nei test di creatività divergente, ma resta sotto il livello dei soggetti umani più creativi, soprattutto in compiti complessi di scrittura.
Perché la temperatura influenza la creatività dei modelli?
La temperatura controlla il grado di casualità nella generazione del testo. Valori più alti aumentano l’esplorazione dello spazio semantico, producendo risposte più varie e creative.
Questi risultati significano che l’IA sostituirà i creativi umani?
No. I risultati indicano che l’IA può supportare e amplificare i processi creativi, ma la creatività umana di alto livello resta legata a esperienza, contesto e giudizio che i modelli non replicano.
Iscriviti a Matrice Digitale
Ricevi le notizie principali direttamente nella tua casella di posta.
Niente spam, disiscriviti quando vuoi.