OpenAI lancia GPT-5.5 per ChatGPT e Codex con intelligenza agentica

OpenAI lancia GPT-5.5 per ChatGPT e Codex, presentando il modello come una nuova classe di intelligenza per il lavoro reale. Il sistema comprende più rapidamente gli obiettivi dell’utente, usa strumenti, verifica i risultati e completa task complessi con meno interventi manuali. Il rollout parte per utenti Plus, Pro, Business ed Enterprise. Il salto riguarda soprattutto coding agentico, uso del computer, analisi dati, documenti e ricerca.

Potresti non leggerci più: Seguici su Google ★

Cosa leggere

GPT-5.5 porta ChatGPT e Codex verso il lavoro agentico

Annuncio

GPT-5.5 amplia il ruolo di ChatGPT e Codex da assistenti conversazionali a strumenti capaci di gestire attività multi-parte. Il modello interpreta richieste disordinate, pianifica i passaggi, seleziona i tool necessari e prosegue fino al completamento del compito. Questa impostazione riduce la necessità di guidare ogni fase del lavoro e rende l’interazione più simile a una collaborazione operativa. OpenAI posiziona il modello come infrastruttura per l’AI agentica applicata al lavoro reale, con focus su software engineering, knowledge work e prime fasi della ricerca scientifica.

Coding agentico migliora su Terminal-Bench e SWE-Bench Pro

Benchmark	GPT-5.5	GPT-5.4	GPT-5.5 Pro	GPT-5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	–	–	69.4%	68.5%
Expert-SWE (Internal)	73.1%	68.5%	–	–	–	–
GDPval (wins or ties)	84.9%	83.0%	82.3%	82.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	–	–	78.0%	–
Toolathlon	55.6%	54.6%	–	–	–	48.8%
BrowseComp	84.4%	82.7%	90.1%	89.3%	79.3%	85.9%
FrontierMath Tier 1–3	51.7%	47.6%	52.4%	50.0%	43.8%	36.9%
FrontierMath Tier 4	35.4%	27.1%	39.6%	38.0%	22.9%	16.7%
CyberGym	81.8%	79.0%	–	–	73.1%	–

Confronto Benchmark AI: La nuova linea GPT-5.5 segna un distacco netto nei test di logica, programmazione e sicurezza informatica (CyberGym). In particolare, le varianti “Pro” dominano le simulazioni più complesse come BrowseComp e i complessi problemi matematici di FrontierMath, distanziando in modo significativo Claude Opus 4.7 e Gemini 3.1 Pro.

Il progresso più evidente arriva nel coding. GPT-5.5 raggiunge 82,7 per cento su Terminal-Bench 2.0, contro il 75,1 per cento di GPT-5.4, e ottiene 58,6 per cento su SWE-Bench Pro nella risoluzione di issue reali su GitHub. Su Expert-SWE arriva al 73,1 per cento, migliorando la gestione di task a lungo orizzonte. In Codex, queste capacità si traducono in implementazioni, refactor, debug, test e validazioni più autonome. Il modello mantiene meglio il contesto su codebase estese e ragiona con maggiore precisione sugli effetti collaterali delle modifiche.

Uso del computer e strumenti software diventano più naturali

GPT-5.5 migliora anche nell’uso operativo del computer, dove deve navigare interfacce, digitare, cliccare e passare tra applicazioni diverse. Su OSWorld-Verified raggiunge il 78,7 per cento, superando GPT-5.4, mentre su Toolathlon sale al 55,6 per cento. Queste metriche indicano una maggiore capacità di eseguire workflow concreti senza istruzioni eccessivamente dettagliate. Il modello trasforma input incompleti in documenti, fogli di calcolo e analisi più ordinati, mantenendo l’obiettivo finale anche durante sessioni iterative lunghe.

Knowledge work e ricerca beneficiano di meno retry e più contesto

Nel lavoro conoscitivo, GPT-5.5 analizza dati, ricerca online, sintetizza informazioni e produce output strutturati con meno correzioni successive. Il modello raggiunge 84,9 per cento su GDPval in vittorie o pareggi e nella versione Pro arriva al 90,1 per cento su BrowseComp. Su FrontierMath registra il 52,4 per cento nei tier 1-3 e il 39,6 per cento nel tier 4. Questi risultati indicano un miglioramento nella gestione di problemi complessi, soprattutto quando servono pianificazione, verifica e uso coordinato di strumenti.

GPT-5.5 Thinking e GPT-5.5 Pro separano velocità e accuratezza

OpenAI introduce varianti pensate per esigenze diverse. GPT-5.5 Thinking offre supporto rapido su problemi difficili con risposte più concise e intelligenti, disponibile per utenti Plus, Pro, Business ed Enterprise su ChatGPT. GPT-5.5 Pro è destinato a task più impegnativi e privilegia la massima accuratezza. In Codex, il modello supporta un context window molto ampio e una modalità Fast che aumenta la velocità di generazione a fronte di un costo superiore. Questa segmentazione consente a sviluppatori, ricercatori e aziende di scegliere tra efficienza, profondità e rapidità.

API in arrivo con prezzi superiori ma maggiore efficienza token

OpenAI lancia GPT-5.5 per ChatGPT e Codex con intelligenza agentica 5

Le API di GPT-5.5 arriveranno dopo una fase aggiuntiva di sicurezza e scalabilità. OpenAI prevede il modello gpt-5.5 nelle API Responses e Chat Completions a 5 dollari per milione di token input e 30 dollari per milione di token output, con context window da 1 milione di token. La versione gpt-5.5-pro costerà 30 dollari per milione di token input e 180 dollari per milione di token output. Il prezzo nominale cresce rispetto a GPT-5.4, ma l’efficienza token più alta riduce retry e consumo complessivo in molti task.

OpenAI rafforza i safeguard su cybersecurity e biologia

Capture the Flags challenge tasks Internal — OpenAI lancia GPT-5.5 per ChatGPT e Codex con intelligenza agentica 6

La sicurezza rappresenta un punto centrale del lancio. OpenAI ha valutato GPT-5.5 con framework di preparedness, red teaming interno ed esterno e test mirati su cybersecurity e biologia avanzata. Il modello è accompagnato da safeguard più robusti per ridurre i rischi di misuse, mantenendo accesso a casi d’uso benefici. L’azienda ha raccolto feedback da quasi 200 partner early-access e lavora con clienti e partner per definire requisiti di deployment API. Questo approccio spiega perché il rilascio su API non sia immediato come quello su ChatGPT e Codex.

GPT-5.5 spinge OpenAI verso l’infrastruttura globale per agenti AI

Eval	GPT-5.5	GPT-5.4	GPT-5.5 Pro	GPT-5.4 Pro	Claude Opus 4.7	Gemini 3.1 Pro
Coding
SWE-Bench Pro (Public)*	58.6%	57.7%	–	–	64.3%	54.2%
Terminal-Bench 2.0	82.7%	75.1%	–	–	69.4%	68.5%
Expert-SWE (Internal)	73.1%	68.5%	–	–	–	–
Professional
GDPval (wins or ties)	84.9%	83.0%	82.3%	82.0%	80.3%	67.3%
FinanceAgent v1.1	60.0%	56.0%	–	61.5%	64.4%	59.7%
Investment Banking Modeling Tasks (Internal)	88.5%	87.3%	88.6%	83.6%	–	–
OfficeQA Pro	54.1%	53.2%	–	–	43.6%	18.1%
Computer use and vision
OSWorld-Verified	78.7%	75.0%	–	–	78.0%	–
MMMU Pro (no tools)	81.2%	81.2%	–	–	–	80.5%
MMMU Pro (with tools)	83.2%	82.1%	–	–	–	–
Tool use
BrowseComp	84.4%	82.7%	90.1%	89.3%	79.3%	85.9%
MCP Atlas**	75.3%	70.6%	–	–	79.1%	78.2%
Toolathlon	55.6%	54.6%	–	–	–	48.8%
Tau2-bench Telecom***	98.0%	92.8%	–	–	–	–
Academic
GeneBench	25.0%	19.0%	33.2%	25.6%	–	–
FrontierMath Tier 1–3	51.7%	47.6%	52.4%	50.0%	43.8%	36.9%
FrontierMath Tier 4	35.4%	27.1%	39.6%	38.0%	22.9%	16.7%
BixBench	80.5%	74.0%	–	–	–	–
GPQA Diamond	93.6%	92.8%	–	94.4%	94.2%	94.3%
Humanity’s Last Exam (no tools)	41.4%	39.8%	43.1%	42.7%	46.9%	44.4%
Humanity’s Last Exam (with tools)	52.2%	52.1%	57.2%	58.7%	54.7%	51.4%
Cybersecurity
CTF challenge tasks (Internal)****	88.1%	83.7%	–	–	–	–
CyberGym	81.8%	79.0%	–	–	73.1%	–
Long context
Graphwalks BFS 256k f1	73.7%	62.5%	–	–	76.9%	–
Graphwalks BFS 1mil f1	45.4%	9.4%	–	–	41.2% (Opus 4.6)	–
Graphwalks parents 256k f1	90.1%	82.8%	–	–	93.6%	–
Graphwalks parents 1mil f1	58.5%	44.4%	–	–	72.0% (Opus 4.6)	–
OpenAI MRCR v2 8-needle 4K-8K	98.1%	97.3%	–	–	–	–
OpenAI MRCR v2 8-needle 8K-16K	93.0%	91.4%	–	–	–	–
OpenAI MRCR v2 8-needle 16K-32K	96.5%	97.2%	–	–	–	–
OpenAI MRCR v2 8-needle 32K-64K	90.0%	90.5%	–	–	–	–
OpenAI MRCR v2 8-needle 64K-128K	83.1%	86.0%	–	–	–	–
OpenAI MRCR v2 8-needle 128K-256K	87.5%	79.3%	–	–	59.2%	–
OpenAI MRCR v2 8-needle 256K-512K	81.5%	57.5%	–	–	–	–
OpenAI MRCR v2 8-needle 512K-1M	74.0%	36.6%	–	–	32.2%	–
Abstract reasoning
ARC-AGI-1 (Verified)	95.0%	93.7%	–	94.5%	93.5%	98.0%
ARC-AGI-2 (Verified)	85.0%	73.3%	–	83.3%	75.8%	77.1%

Note metodologiche ai test:

Le valutazioni (evals) di GPT sono state eseguite in un ambiente di ricerca con “reasoning effort” impostato su xhigh. I risultati potrebbero variare leggermente rispetto al comportamento in produzione di ChatGPT.
* SWE-Bench Pro: Alcuni laboratori hanno riscontrato prove di memorizzazione su questo specifico benchmark.
** MCP Atlas: I dati riflettono i risultati pubblicati da Scale AI dopo l’ultimo aggiornamento di aprile 2026.
*** Tau2-bench telecom: I risultati per GPT-5.5 e GPT-5.4 si basano sui prompt originali (nessun aggiustamento/ottimizzazione del prompt), omettendo i test di altri laboratori che prevedevano prompt calibrati ad-hoc.
**** CTF challenge tasks: Si tratta di un’espansione dei CTF più difficili utilizzati nelle system card precedenti, con l’aggiunta di ulteriori sfide ad alta complessità.

Il lancio di GPT-5.5 consolida la strategia di OpenAI nel passaggio dall’assistenza conversazionale all’esecuzione agentica del lavoro. Il modello non si limita a rispondere, ma pianifica, usa strumenti, controlla il proprio operato e completa attività complesse. Per sviluppatori e aziende, il vantaggio principale riguarda la riduzione del coordinamento manuale e l’aumento dell’autonomia nei workflow digitali. Con disponibilità immediata su ChatGPT e Codex, e API in arrivo, GPT-5.5 diventa un passaggio chiave nell’evoluzione dell’AI applicata al lavoro quotidiano.

Iscriviti alla Newsletter

Non perdere le analisi settimanali: Entra nella Matrice Digitale.

Matrice Digitale partecipa al Programma Affiliazione Amazon EU. In qualità di Affiliato Amazon, ricevo un guadagno dagli acquisti idonei. Questo non influenza i prezzi per te.