Intelligenza Artificiale / 6 Marzo 2026 / Di Lorenzo De Santis matricedigitale.it

Rivoluzione GPT-5.4: OpenAI lancia gli agenti che usano il computer, mentre xAI perde sulla trasparenza

GPT-5.4 debutta il 5 marzo 2026 come primo modello mainline di OpenAI con computer-use nativo, segnando un salto strutturale nelle capacità agentiche di ChatGPT. Il rollout coinvolge ChatGPT, API e Codex, mentre in parallelo Anthropic pubblica un indice che stima fino al 75 percento dei task dei programmatori automatizzabili e la California conferma l’entrata in vigore della legge AB 2013 sulla trasparenza dei dataset. La giornata ridefinisce il settore su tre assi: potenza tecnica, impatto occupazionale e pressione regolatoria.

Cosa leggere

GPT-5.4 e il computer-use integrato: cosa cambia davvero

GPT-5.4 viene rilasciato in due varianti, GPT-5.4 Thinking e GPT-5.4 Pro. La prima sostituisce GPT-5.2 Thinking e diventa disponibile per abbonati Plus, Team e Pro. La versione Pro resta riservata a piani Pro ed Enterprise, destinata a workload ad alta intensità computazionale. La novità centrale è il computer-use nativo. Il modello non si limita a generare testo o codice, ma interagisce direttamente con ambienti software reali. Può emettere comandi di mouse e tastiera, operare su screenshot e utilizzare librerie come Playwright per controllare applicazioni e browser. Il ciclo dichiarato è build-run-verify-fix, ovvero costruire, eseguire, verificare e correggere. Questo significa che l’agente AI può completare task complessi in autonomia, verificare l’esito e intervenire su eventuali errori senza interrompere il flusso. L’integrazione delle capacità di coding già introdotte con GPT-5.3 Codex amplia l’operatività su ambienti reali e non solo simulati.

Rivoluzione GPT-5.4: OpenAI lancia gli agenti che usano il computer, mentre xAI perde sulla trasparenza 5

Un’altra novità rilevante riguarda la trasparenza del ragionamento. ChatGPT mostra il piano iniziale di soluzione e consente all’utente di intervenire durante il processo. È una forma di interazione dinamica che modifica la relazione tra utente e modello.

Contesto da 1 milione di token e compaction

Annuncio

GPT-5.4 supporta fino a 1 milione di token di contesto, una soglia che permette l’analisi di interi codebase, grandi collezioni documentali o traiettorie agentiche prolungate in un’unica richiesta. Questa estensione è accompagnata dalla compaction, che preserva il contesto chiave riducendo ridondanze e consumo inutile di token.

	GPT-5.4	GPT-5.3-Codex	GPT-5.2
GDPval (wins or ties)	83.0%	70.9%	70.9%
SWE-Bench Pro (Public)	57.7%	56.8%	55.6%
OSWorld-Verified	75.0%	74.0%*	47.3%
Toolathlon	54.6%	51.9%	46.3%
BrowseComp	82.7%	77.3%	65.8%

Per gli sviluppatori e per i team enterprise questo significa gestire workflow tool-heavy senza perdita di performance end-to-end. L’efficienza token migliora, con minore consumo per risolvere problemi di ragionamento complessi e tempi di risposta più rapidi.

Sei miglioramenti chiave su coding, multimodalità e workflow

Le sei aree di miglioramento dichiarate coprono ambiti misurabili. GPT-5.4 eccelle nel coding e tool use, migliorando comprensione documentale e rispetto di istruzioni complesse. Rafforza la percezione delle immagini e i task multimodali, rendendo più fluida l’integrazione tra testo e visione. La gestione di workflow agentici multi-step risulta più stabile e robusta, soprattutto nei compiti a lungo termine. L’efficienza token cresce su workload pesanti. L’agentic web search migliora la sintesi multi-fonte su informazioni difficili da localizzare. Infine, i workflow business intensivi su documenti e spreadsheet registrano un salto qualitativo in settori come customer service, analytics e finance.

GDPval Knowledge work tasks — Rivoluzione GPT-5.4: OpenAI lancia gli agenti che usano il computer, mentre xAI perde sulla trasparenza 6

I benchmark confermano l’avanzamento. Su GDPval, benchmark di knowledge work professionale, GPT-5.4 eguaglia o supera professionisti umani nell’83 percento dei confronti, contro il 71 percento del modello precedente. Nei task di creazione e modifica di spreadsheet, presentazioni e documenti il punteggio sale dal 68,4 percento all’87,3 percento.

Anthropic e l’indice di esposizione AI: programmatori al 75 percento

Nello stesso giorno Anthropic pubblica l’indice di esposizione AI, uno strumento che misura la vulnerabilità delle professioni white-collar rispetto ai large language model. L’indice valuta quanto le capacità attuali degli LLM corrispondano ai task quotidiani delle diverse occupazioni. I programmatori computer emergono come categoria più esposta, con circa il 75 percento dei task quotidiani considerati automatizzabili. Anthropic evidenzia che in alcuni workflow Claude riduce i tempi di completamento fino all’80 percento, trasformando quattro ore di lavoro in meno di un’ora. Non si registrano ancora perdite massive di posti di lavoro. Tuttavia i tassi di assunzione nella fascia 22-25 anni per ruoli ad alta esposizione rallentano in modo misurabile. Le aziende rimodulano le strategie di hiring, integrando l’AI nei processi produttivi senza ricorrere a licenziamenti su larga scala. L’indice diventa così uno strumento per policy maker e responsabili HR, offrendo un quadro sistematico dell’impatto occupazionale. Le dichiarazioni del CEO Dario Amodei sull’arrivo dell’AGI entro uno o due anni trovano un primo riscontro empirico nella trasformazione dei workflow.

xAI, AB 2013 e la fine della regolamentazione permissiva

Sul fronte regolatorio, xAI fallisce nel tentativo di bloccare la legge californiana AB 2013, entrata in vigore il 1° gennaio 2026. La norma impone agli sviluppatori AI operanti in California di rivelare pubblicamente i dataset utilizzati per addestrare modelli generativi. xAI aveva presentato ricorso federale a fine dicembre 2025 chiedendo un’ingiunzione preliminare. L’udienza del 26 febbraio 2026 non ha portato al blocco della norma. La legge resta quindi attiva e coinvolge tutti i grandi player, tra cui OpenAI e Anthropic. La società aveva sostenuto che la disclosure violasse segreti commerciali e diritti costituzionali. Tuttavia la sconfitta giudiziaria, arrivata un giorno dopo il respingimento di un’altra causa contro OpenAI per presunto furto di segreti commerciali, segna un punto di svolta. La California, con un PIL di circa 4 mila miliardi di dollari, rappresenta un mercato strategico. Le sue normative tendono a diventare standard nazionali de facto. L’obbligo di trasparenza sui dataset apre potenzialmente la strada a contenziosi su copyright e sourcing dei dati.

Un settore in accelerazione simultanea

Il 5 marzo 2026 diventa una data simbolica per l’ecosistema AI. GPT-5.4 spinge i limiti tecnici con computer-use integrato e contesto da un milione di token. Anthropic quantifica in modo sistematico i rischi occupazionali, con i programmatori in prima linea. xAI si scontra con una regolamentazione più stringente che impone trasparenza sui dati di addestramento. Innovazione tecnica, trasformazione del lavoro e pressione normativa avanzano in parallelo. Il panorama non evolve più per fasi isolate ma per accelerazioni simultanee. GPT-5.4 non è soltanto un upgrade di ChatGPT. È il segnale che l’AI sta entrando in una fase agentica pienamente operativa, mentre società e istituzioni cercano di ridefinire confini e responsabilità.

Iscriviti alla Newsletter

Non perdere le analisi settimanali: Entra nella Matrice Digitale.

Matrice Digitale partecipa al Programma Affiliazione Amazon EU. In qualità di Affiliato Amazon, ricevo un guadagno dagli acquisti idonei. Questo non influenza i prezzi per te.