OpenAI lancia GPT-5.5 per ChatGPT e Codex, presentando il modello come una nuova classe di intelligenza per il lavoro reale. Il sistema comprende più rapidamente gli obiettivi dell’utente, usa strumenti, verifica i risultati e completa task complessi con meno interventi manuali. Il rollout parte per utenti Plus, Pro, Business ed Enterprise. Il salto riguarda soprattutto coding agentico, uso del computer, analisi dati, documenti e ricerca.
Cosa leggere
GPT-5.5 porta ChatGPT e Codex verso il lavoro agentico
GPT-5.5 amplia il ruolo di ChatGPT e Codex da assistenti conversazionali a strumenti capaci di gestire attività multi-parte. Il modello interpreta richieste disordinate, pianifica i passaggi, seleziona i tool necessari e prosegue fino al completamento del compito. Questa impostazione riduce la necessità di guidare ogni fase del lavoro e rende l’interazione più simile a una collaborazione operativa. OpenAI posiziona il modello come infrastruttura per l’AI agentica applicata al lavoro reale, con focus su software engineering, knowledge work e prime fasi della ricerca scientifica.
Coding agentico migliora su Terminal-Bench e SWE-Bench Pro
| Benchmark | GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | – | – | 69.4% | 68.5% |
| Expert-SWE (Internal) | 73.1% | 68.5% | – | – | – | – |
| GDPval (wins or ties) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | – | – | 78.0% | – |
| Toolathlon | 55.6% | 54.6% | – | – | – | 48.8% |
| BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
| FrontierMath Tier 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
| CyberGym | 81.8% | 79.0% | – | – | 73.1% | – |
Confronto Benchmark AI: La nuova linea GPT-5.5 segna un distacco netto nei test di logica, programmazione e sicurezza informatica (CyberGym). In particolare, le varianti “Pro” dominano le simulazioni più complesse come BrowseComp e i complessi problemi matematici di FrontierMath, distanziando in modo significativo Claude Opus 4.7 e Gemini 3.1 Pro.
Il progresso più evidente arriva nel coding. GPT-5.5 raggiunge 82,7 per cento su Terminal-Bench 2.0, contro il 75,1 per cento di GPT-5.4, e ottiene 58,6 per cento su SWE-Bench Pro nella risoluzione di issue reali su GitHub. Su Expert-SWE arriva al 73,1 per cento, migliorando la gestione di task a lungo orizzonte. In Codex, queste capacità si traducono in implementazioni, refactor, debug, test e validazioni più autonome. Il modello mantiene meglio il contesto su codebase estese e ragiona con maggiore precisione sugli effetti collaterali delle modifiche.
Uso del computer e strumenti software diventano più naturali
GPT-5.5 migliora anche nell’uso operativo del computer, dove deve navigare interfacce, digitare, cliccare e passare tra applicazioni diverse. Su OSWorld-Verified raggiunge il 78,7 per cento, superando GPT-5.4, mentre su Toolathlon sale al 55,6 per cento. Queste metriche indicano una maggiore capacità di eseguire workflow concreti senza istruzioni eccessivamente dettagliate. Il modello trasforma input incompleti in documenti, fogli di calcolo e analisi più ordinati, mantenendo l’obiettivo finale anche durante sessioni iterative lunghe.
Knowledge work e ricerca beneficiano di meno retry e più contesto
Nel lavoro conoscitivo, GPT-5.5 analizza dati, ricerca online, sintetizza informazioni e produce output strutturati con meno correzioni successive. Il modello raggiunge 84,9 per cento su GDPval in vittorie o pareggi e nella versione Pro arriva al 90,1 per cento su BrowseComp. Su FrontierMath registra il 52,4 per cento nei tier 1-3 e il 39,6 per cento nel tier 4. Questi risultati indicano un miglioramento nella gestione di problemi complessi, soprattutto quando servono pianificazione, verifica e uso coordinato di strumenti.
GPT-5.5 Thinking e GPT-5.5 Pro separano velocità e accuratezza
OpenAI introduce varianti pensate per esigenze diverse. GPT-5.5 Thinking offre supporto rapido su problemi difficili con risposte più concise e intelligenti, disponibile per utenti Plus, Pro, Business ed Enterprise su ChatGPT. GPT-5.5 Pro è destinato a task più impegnativi e privilegia la massima accuratezza. In Codex, il modello supporta un context window molto ampio e una modalità Fast che aumenta la velocità di generazione a fronte di un costo superiore. Questa segmentazione consente a sviluppatori, ricercatori e aziende di scegliere tra efficienza, profondità e rapidità.
API in arrivo con prezzi superiori ma maggiore efficienza token

Le API di GPT-5.5 arriveranno dopo una fase aggiuntiva di sicurezza e scalabilità. OpenAI prevede il modello gpt-5.5 nelle API Responses e Chat Completions a 5 dollari per milione di token input e 30 dollari per milione di token output, con context window da 1 milione di token. La versione gpt-5.5-pro costerà 30 dollari per milione di token input e 180 dollari per milione di token output. Il prezzo nominale cresce rispetto a GPT-5.4, ma l’efficienza token più alta riduce retry e consumo complessivo in molti task.
OpenAI rafforza i safeguard su cybersecurity e biologia

La sicurezza rappresenta un punto centrale del lancio. OpenAI ha valutato GPT-5.5 con framework di preparedness, red teaming interno ed esterno e test mirati su cybersecurity e biologia avanzata. Il modello è accompagnato da safeguard più robusti per ridurre i rischi di misuse, mantenendo accesso a casi d’uso benefici. L’azienda ha raccolto feedback da quasi 200 partner early-access e lavora con clienti e partner per definire requisiti di deployment API. Questo approccio spiega perché il rilascio su API non sia immediato come quello su ChatGPT e Codex.
GPT-5.5 spinge OpenAI verso l’infrastruttura globale per agenti AI
| Eval | GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|
| Coding | ||||||
| SWE-Bench Pro (Public)* | 58.6% | 57.7% | – | – | 64.3% | 54.2% |
| Terminal-Bench 2.0 | 82.7% | 75.1% | – | – | 69.4% | 68.5% |
| Expert-SWE (Internal) | 73.1% | 68.5% | – | – | – | – |
| Professional | ||||||
| GDPval (wins or ties) | 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3% |
| FinanceAgent v1.1 | 60.0% | 56.0% | – | 61.5% | 64.4% | 59.7% |
| Investment Banking Modeling Tasks (Internal) | 88.5% | 87.3% | 88.6% | 83.6% | – | – |
| OfficeQA Pro | 54.1% | 53.2% | – | – | 43.6% | 18.1% |
| Computer use and vision | ||||||
| OSWorld-Verified | 78.7% | 75.0% | – | – | 78.0% | – |
| MMMU Pro (no tools) | 81.2% | 81.2% | – | – | – | 80.5% |
| MMMU Pro (with tools) | 83.2% | 82.1% | – | – | – | – |
| Tool use | ||||||
| BrowseComp | 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9% |
| MCP Atlas** | 75.3% | 70.6% | – | – | 79.1% | 78.2% |
| Toolathlon | 55.6% | 54.6% | – | – | – | 48.8% |
| Tau2-bench Telecom*** | 98.0% | 92.8% | – | – | – | – |
| Academic | ||||||
| GeneBench | 25.0% | 19.0% | 33.2% | 25.6% | – | – |
| FrontierMath Tier 1–3 | 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7% |
| BixBench | 80.5% | 74.0% | – | – | – | – |
| GPQA Diamond | 93.6% | 92.8% | – | 94.4% | 94.2% | 94.3% |
| Humanity’s Last Exam (no tools) | 41.4% | 39.8% | 43.1% | 42.7% | 46.9% | 44.4% |
| Humanity’s Last Exam (with tools) | 52.2% | 52.1% | 57.2% | 58.7% | 54.7% | 51.4% |
| Cybersecurity | ||||||
| CTF challenge tasks (Internal)**** | 88.1% | 83.7% | – | – | – | – |
| CyberGym | 81.8% | 79.0% | – | – | 73.1% | – |
| Long context | ||||||
| Graphwalks BFS 256k f1 | 73.7% | 62.5% | – | – | 76.9% | – |
| Graphwalks BFS 1mil f1 | 45.4% | 9.4% | – | – | 41.2% (Opus 4.6) | – |
| Graphwalks parents 256k f1 | 90.1% | 82.8% | – | – | 93.6% | – |
| Graphwalks parents 1mil f1 | 58.5% | 44.4% | – | – | 72.0% (Opus 4.6) | – |
| OpenAI MRCR v2 8-needle 4K-8K | 98.1% | 97.3% | – | – | – | – |
| OpenAI MRCR v2 8-needle 8K-16K | 93.0% | 91.4% | – | – | – | – |
| OpenAI MRCR v2 8-needle 16K-32K | 96.5% | 97.2% | – | – | – | – |
| OpenAI MRCR v2 8-needle 32K-64K | 90.0% | 90.5% | – | – | – | – |
| OpenAI MRCR v2 8-needle 64K-128K | 83.1% | 86.0% | – | – | – | – |
| OpenAI MRCR v2 8-needle 128K-256K | 87.5% | 79.3% | – | – | 59.2% | – |
| OpenAI MRCR v2 8-needle 256K-512K | 81.5% | 57.5% | – | – | – | – |
| OpenAI MRCR v2 8-needle 512K-1M | 74.0% | 36.6% | – | – | 32.2% | – |
| Abstract reasoning | ||||||
| ARC-AGI-1 (Verified) | 95.0% | 93.7% | – | 94.5% | 93.5% | 98.0% |
| ARC-AGI-2 (Verified) | 85.0% | 73.3% | – | 83.3% | 75.8% | 77.1% |
Note metodologiche ai test:
- Le valutazioni (evals) di GPT sono state eseguite in un ambiente di ricerca con “reasoning effort” impostato su xhigh. I risultati potrebbero variare leggermente rispetto al comportamento in produzione di ChatGPT.
- * SWE-Bench Pro: Alcuni laboratori hanno riscontrato prove di memorizzazione su questo specifico benchmark.
- ** MCP Atlas: I dati riflettono i risultati pubblicati da Scale AI dopo l’ultimo aggiornamento di aprile 2026.
- *** Tau2-bench telecom: I risultati per GPT-5.5 e GPT-5.4 si basano sui prompt originali (nessun aggiustamento/ottimizzazione del prompt), omettendo i test di altri laboratori che prevedevano prompt calibrati ad-hoc.
- **** CTF challenge tasks: Si tratta di un’espansione dei CTF più difficili utilizzati nelle system card precedenti, con l’aggiunta di ulteriori sfide ad alta complessità.
Il lancio di GPT-5.5 consolida la strategia di OpenAI nel passaggio dall’assistenza conversazionale all’esecuzione agentica del lavoro. Il modello non si limita a rispondere, ma pianifica, usa strumenti, controlla il proprio operato e completa attività complesse. Per sviluppatori e aziende, il vantaggio principale riguarda la riduzione del coordinamento manuale e l’aumento dell’autonomia nei workflow digitali. Con disponibilità immediata su ChatGPT e Codex, e API in arrivo, GPT-5.5 diventa un passaggio chiave nell’evoluzione dell’AI applicata al lavoro quotidiano.
Iscriviti alla Newsletter
Non perdere le analisi settimanali: Entra nella Matrice Digitale.
Matrice Digitale partecipa al Programma Affiliazione Amazon EU. In qualità di Affiliato Amazon, ricevo un guadagno dagli acquisti idonei. Questo non influenza i prezzi per te.









