ChatGPT sta peggiorando nel tempo? Uno studio afferma di sì

di Redazione Pubblicato: 2 anni fa

scritto da Redazione Pubblicato: 2 anni fa 0 commenti

Ricercatori della Stanford University e dell’University of California, Berkeley, hanno pubblicato uno studio che sostiene di mostrare cambiamenti nelle prestazioni di GPT-4 nel tempo. Lo studio alimenta una credenza comune, ma non provata, che il modello di linguaggio AI sia diventato meno efficiente nelle attività di codifica e composizione negli ultimi mesi. Alcuni esperti non sono convinti dai risultati, ma affermano che la mancanza di certezza evidenzia un problema più grande con il modo in cui OpenAI gestisce i rilasci dei suoi modelli.

Cosa leggere

Lo studio su ChatGPT

Nello studio intitolato “How Is ChatGPT’s Behavior Changing over Time?” pubblicato su arXiv, Lingjiao Chen, Matei Zaharia e James Zou mettono in dubbio le prestazioni costanti dei grandi modelli di linguaggio di OpenAI, in particolare GPT-3.5 e GPT-4. Utilizzando l’accesso API, hanno testato le versioni di marzo e giugno 2023 di questi modelli su attività come la risoluzione di problemi matematici, la risposta a domande sensibili, la generazione di codice e il ragionamento visivo. In particolare, la capacità di GPT-4 di identificare i numeri primi è presumibilmente crollata drasticamente da un’accuratezza del 97,6% a marzo a solo il 2,4% a giugno. Stranamente, GPT-3.5 ha mostrato miglioramenti nello stesso periodo.

Le teorie sulla diminuzione delle prestazioni di GPT-4

Questo studio arriva dopo che molte persone hanno lamentato che le prestazioni di GPT-4 sono soggettivamente diminuite negli ultimi mesi. Le teorie popolari sul perché includono OpenAI “distillando” i modelli per ridurre il loro sovraccarico computazionale in un tentativo di velocizzare l’output e risparmiare risorse GPU, il fine-tuning (ulteriore addestramento) per ridurre gli output dannosi che potrebbero avere effetti non intenzionali, e una serie di teorie del complotto non supportate come OpenAI che riduce le capacità di codifica di GPT-4 in modo che più persone paghino per GitHub Copilot.

La risposta di OpenAI

Nel frattempo, OpenAI ha costantemente negato qualsiasi affermazione che GPT-4 abbia diminuito in capacità. Solo la scorsa settimana, il VP di Prodotto di OpenAI, Peter Welinder, ha twittato: “No, non abbiamo reso GPT-4 più stupido. Al contrario: rendiamo ogni nuova versione più intelligente della precedente. Ipotesi attuale: quando lo usi più intensamente, inizi a notare problemi che non vedevi prima.”

Sebbene questo nuovo studio possa sembrare una prova definitiva per confermare i sospetti dei critici di GPT-4, altri dicono di non essere così sicuri. Il professore di informatica di Princeton, Arvind Narayanan, ritiene che i risultati dello studio non dimostrino conclusivamente un calo delle prestazioni di GPT-4 e siano potenzialmente coerenti con gli aggiustamenti di fine-tuning effettuati da OpenAI. In termini di misurazione delle capacità di generazione del codice, ha criticato lo studio per aver valutato l’immediatezza della capacità del codice di essere eseguito piuttosto che la sua correttezza.

chatgpt fine-tuning

Redazione

La redazione di Matrice Digitale è specializzata in cybersecurity, OSINT, intelligenza artificiale e geopolitica tecnologica. Con inchieste indipendenti e analisi approfondite, raccontiamo come privacy, sorveglianza e innovazione digitale plasmano la società, anticipando i rischi e le sfide ignorate dai media tradizionali.