OpenAI rompe gli indugi: arriva GPT-5.6 Sol (e in segreto batte tutti nel coding)

📌 In Sintesi

OpenAI introduce la nuova famiglia GPT-5.6 con il modello flagship Sol e le varianti Terra e Luna.
Le nuove capacità migliorano coding, automazione, ricerca scientifica e difesa cyber con maggiore efficienza nell’utilizzo dei token.
L’anteprima è disponibile per partner selezionati, mentre ChatGPT, Codex e API riceveranno GPT-5.6 nelle prossime settimane.

OpenAI ha avviato una fase di anteprima limitata della nuova famiglia GPT-5.6, introducendo il modello flagship GPT-5.6 Sol insieme alle varianti Terra e Luna. La nuova generazione rappresenta un’evoluzione sostanziale rispetto a GPT-5.5, con un’attenzione particolare alle capacità agentiche, alla pianificazione di attività complesse e all’esecuzione coordinata di strumenti esterni. Il rilascio inaugura anche una nuova struttura di denominazione che separa il numero di versione dalla classe prestazionale dei modelli, consentendo a OpenAI di evolvere indipendentemente i diversi livelli della piattaforma. Le prime valutazioni mostrano miglioramenti significativi nei benchmark dedicati al coding, alla cybersecurity, alla biologia computazionale e ai flussi di lavoro a lungo orizzonte. Parallelamente, l’azienda ha introdotto il più articolato sistema di protezione mai sviluppato per uno dei propri modelli, combinando nuovi classificatori, meccanismi di monitoraggio e procedure di risposta rapida ai tentativi di abuso. L’anteprima è al momento riservata a partner selezionati, mentre il rilascio generale per ChatGPT, Codex e le API è previsto nelle prossime settimane.

Potresti non leggerci più: Seguici su Google News ★

Cosa leggere

GPT-5.6 inaugura una nuova famiglia composta da Sol, Terra e Luna

La nuova serie GPT-5.6 introduce tre modelli distinti progettati per soddisfare differenti esigenze operative e livelli di costo. GPT-5.6 Sol rappresenta il modello di fascia più elevata e costituisce il nuovo punto di riferimento della piattaforma OpenAI. GPT-5.6 Terra punta invece a offrire prestazioni paragonabili a GPT-5.5 riducendo sensibilmente i costi di utilizzo, risultando particolarmente indicato per applicazioni aziendali quotidiane. GPT-5.6 Luna privilegia invece velocità di risposta ed economicità mantenendo solide capacità di ragionamento generale. La nuova convenzione di denominazione separa la progressione numerica della famiglia GPT dalla classificazione prestazionale Sol, Terra e Luna, permettendo ai diversi modelli di evolvere indipendentemente in funzione delle esigenze degli sviluppatori e delle imprese. Tutta la famiglia eredita inoltre il nuovo stack di sicurezza sviluppato da OpenAI, progettato per limitare gli abusi nei contesti più sensibili, comprese le richieste relative alla cybersecurity, agli attacchi avanzati e ad altri scenari ad alto rischio.

GPT-5.6 Sol amplia le capacità agentiche e il ragionamento su attività complesse

Il modello GPT-5.6 Sol rappresenta il sistema più potente mai realizzato da OpenAI, migliorando sensibilmente le capacità di gestione di attività articolate che richiedono pianificazione, coordinamento tra strumenti e iterazioni successive. Durante le settimane di validazione precedenti al rilascio, il modello è stato sottoposto a un intenso programma di test, simulazioni operative e campagne di red teaming per individuarne limiti e vulnerabilità. I risultati preliminari evidenziano un netto miglioramento nella gestione di workflow estesi, nell’organizzazione autonoma delle attività e nella capacità di mantenere il contesto durante operazioni prolungate. Secondo OpenAI, il modello raggiunge un equilibrio tra incremento delle prestazioni e requisiti di sicurezza senza oltrepassare la soglia Cyber Critical prevista dal proprio Preparedness Framework, consentendo quindi un rilascio controllato pur mantenendo rigorose limitazioni nelle attività considerate più rischiose.

Nuovi record nel coding grazie a Terminal-Bench 2.1

Annuncio

ExploitBench — OpenAI rompe gli indugi: arriva GPT-5.6 Sol (e in segreto batte tutti nel coding) 6

Uno dei principali punti di forza della nuova generazione riguarda il coding. GPT-5.6 Sol stabilisce infatti un nuovo riferimento nel benchmark Terminal-Bench 2.1, progettato per valutare la capacità dei modelli di affrontare attività da terminale che richiedono pianificazione, utilizzo coordinato di strumenti e iterazioni successive. Nella modalità Ultra, il modello raggiunge il 91,9%, mentre nella configurazione standard ottiene 88,8%, superando sia GPT-5.5, fermo all’88,0%, sia concorrenti come Claude Mythos 5, accreditato dell’84,3%. La modalità Ultra introduce inoltre un’architettura basata su subagenti, che permette al sistema di suddividere problemi complessi tra più componenti cooperanti, aumentando la capacità di risolvere attività articolate che un singolo agente faticherebbe a completare. Oltre all’incremento delle prestazioni assolute, OpenAI evidenzia anche un utilizzo più efficiente dei token durante l’intero processo di esecuzione.

Miglioramenti significativi in biologia computazionale e cybersecurity

GeneBench v1 1 — OpenAI rompe gli indugi: arriva GPT-5.6 Sol (e in segreto batte tutti nel coding) 7

L’evoluzione della famiglia GPT-5.6 interessa anche la ricerca scientifica e la sicurezza informatica. Nel benchmark GeneBench v1, dedicato alla biologia quantitativa e alle analisi genomiche di lunga durata, tutti i modelli della serie registrano miglioramenti evidenti rispetto alla precedente generazione, ottenendo risultati superiori con un consumo inferiore di token. Nel settore della cybersecurity, GPT-5.6 Sol raggiunge le migliori prestazioni mai ottenute da un modello OpenAI. Sul benchmark ExploitBench mantiene livelli competitivi utilizzando circa un terzo dei token richiesti da altri sistemi avanzati, mentre su ExploitGym tutte le varianti della famiglia mostrano progressi significativi nella comprensione delle vulnerabilità software. Durante i test il modello è stato in grado di individuare bug e primitive di sfruttamento nei progetti Chromium e Firefox, pur senza generare exploit completi e funzionanti nelle condizioni previste dalle valutazioni. Secondo OpenAI, queste capacità rimangono al di sotto della soglia definita Cyber Critical, permettendo un utilizzo controllato del modello anche in ambiti difensivi.

Modalità Max e Ultra ampliano il ragionamento del modello

Tra le principali novità operative introdotte dalla serie GPT-5.6 figurano le nuove modalità di ragionamento. La modalità Max aumenta il tempo dedicato all’analisi dei problemi più complessi, consentendo al modello di sviluppare catene di ragionamento più profonde prima della generazione della risposta. La modalità Ultra sfrutta invece un sistema di subagenti che collaborano nella risoluzione dello stesso problema, migliorando sensibilmente l’efficienza nei workflow articolati. La piattaforma introduce inoltre un nuovo sistema di prompt caching con breakpoint espliciti e una durata minima della cache pari a 30 minuti, permettendo agli sviluppatori di ottimizzare i costi durante l’esecuzione di richieste ripetitive. Le operazioni di scrittura nella cache vengono fatturate a 1,25 volte il costo dei token standard, mentre le letture beneficiano di uno sconto del 90%. OpenAI ha inoltre confermato che, a partire da luglio, la nuova famiglia sarà disponibile anche sull’infrastruttura Cerebras, raggiungendo velocità fino a 750 token al secondo per clienti selezionati.

OpenAI introduce il sistema di sicurezza più avanzato mai integrato in un modello GPT

La nuova famiglia GPT-5.6 rappresenta anche un importante passo avanti sul fronte della sicurezza. Lo stack sviluppato da OpenAI combina modelli addestrati a rifiutare richieste proibite, classificatori in tempo reale in grado di interrompere la generazione quando necessario, segnali comportamentali a livello di account per individuare pattern di abuso e differenti livelli di monitoraggio in funzione del rischio associato alle attività richieste. Il modello è stato specificamente addestrato a rifiutare assistenza in operazioni cyber offensive anche quando l’intento viene nascosto attraverso tecniche di prompt obfuscation o jailbreak. Il processo di validazione ha impiegato oltre 700.000 ore GPU equivalenti A100 dedicate a campagne di red teaming automatizzate contro jailbreak universali, integrate da test condotti da ricercatori specializzati. OpenAI ha inoltre predisposto un processo di risposta rapida destinato a introdurre tempestivamente nuove protezioni qualora emergano tecniche di aggiramento non previste durante la fase di rilascio.

Disponibilità limitata, prezzi e strategia di rilascio progressivo

GeneBench v1 — OpenAI rompe gli indugi: arriva GPT-5.6 Sol (e in segreto batte tutti nel coding) 8

L’accesso a GPT-5.6 è attualmente limitato a partner fidati, organizzazioni selezionate e utenti autorizzati attraverso API e Codex, mentre la disponibilità generale su ChatGPT, Codex e sulle API pubbliche è prevista nelle prossime settimane. Prima dell’avvio dell’anteprima OpenAI ha condiviso le principali caratteristiche della piattaforma con le autorità governative degli Stati Uniti, inserendo il rilascio all’interno di un percorso di distribuzione graduale orientato alla gestione responsabile dei modelli più avanzati. Sul piano economico, il listino prevede un costo di 5 dollari per milione di token in input e 30 dollari in output per GPT-5.6 Sol, 2,50 dollari in input e 15 dollari in output per Terra, mentre Luna viene proposto a 1 dollaro in input e 6 dollari in output. OpenAI ha confermato che la fase di anteprima rappresenta soltanto un passaggio temporaneo e che l’obiettivo finale rimane la distribuzione estesa della piattaforma a sviluppatori, imprese, utenti finali e organizzazioni impegnate nella difesa informatica, mantenendo un approccio calibrato sul rischio e sulla sicurezza.

Iscriviti alla Newsletter

Non perdere le analisi settimanali: Entra nella Matrice Digitale.

Matrice Digitale partecipa al Programma Affiliazione Amazon EU. In qualità di Affiliato Amazon, ricevo un guadagno dagli acquisti idonei. Questo non influenza i prezzi per te.