Ecco Claude Fable 5, ma Anthropic lancia l'allarme: "L'AI rischia di sfuggire al controllo umano"

Il rilascio di Claude Fable 5 segna uno dei momenti più importanti del 2026 nel settore dell’intelligenza artificiale. Con la nuova architettura Mythos, Anthropic introduce quello che definisce il modello più potente mai sviluppato dall’azienda, capace di stabilire nuovi record in numerosi benchmark di riferimento e di superare i principali concorrenti nei settori del coding agentico, dell’uso degli strumenti e della cybersecurity. Tuttavia il lancio non è accompagnato soltanto da annunci trionfali sulle prestazioni. Parallelamente, i vertici di Anthropic pubblicano un documento che affronta uno degli scenari più controversi e discussi dell’intera industria: la possibilità che i sistemi di IA acquisiscano capacità di auto-miglioramento ricorsivo, accelerando il proprio sviluppo oltre la capacità umana di comprenderne pienamente il funzionamento. La combinazione tra una nuova generazione di modelli estremamente potenti e una riflessione pubblica sui rischi futuri rappresenta una delle mosse più significative mai adottate dall’azienda guidata da Dario Amodei.

Potresti non leggerci più: Seguici su Google ★

Cosa leggere

Claude Fable 5 inaugura la nuova famiglia Mythos

Annuncio

Il nuovo Claude Fable 5 appartiene alla famiglia Mythos, una generazione di modelli progettata per superare i limiti delle precedenti architetture Anthropic. L’azienda descrive il sistema come il proprio modello di frontiera più avanzato e lo rende disponibile agli utenti degli abbonamenti Pro, Max, Team ed Enterprise senza costi aggiuntivi fino al 22 giugno 2026. Successivamente l’accesso sarà regolato attraverso un sistema basato su crediti di consumo. La versione pubblica di Fable 5 rappresenta però soltanto una parte dell’infrastruttura Mythos. Internamente esiste infatti una variante denominata Mythos 5, identica dal punto di vista delle capacità ma priva di alcune delle salvaguardie integrate nella release destinata al grande pubblico. Anthropic ha deciso di limitare la distribuzione di questa versione a un numero ristretto di ricercatori e organizzazioni specializzate nella difesa delle infrastrutture critiche attraverso il programma Glasswing, sviluppato in collaborazione con il governo statunitense. Questa scelta riflette una strategia ormai consolidata nel settore delle IA di frontiera: rendere disponibili le capacità più avanzate solo a soggetti selezionati quando il rischio di utilizzo offensivo viene considerato troppo elevato per una distribuzione generalizzata.

Prestazioni record nei benchmark di riferimento

Secondo Anthropic, Claude Fable 5 stabilisce nuovi risultati di riferimento nella maggior parte dei benchmark utilizzati per valutare le capacità delle moderne IA generaliste. I miglioramenti riguardano ambiti come software engineering, ricerca scientifica, analisi multimodale, ragionamento avanzato e attività professionali complesse che richiedono pianificazione e uso coordinato di strumenti esterni. L’azienda sostiene che il vantaggio rispetto ai modelli precedenti cresca progressivamente all’aumentare della complessità e della durata dei compiti assegnati. In particolare Fable 5 avrebbe superato sistemi concorrenti come GPT-5.5, Gemini 3.1 Pro e le precedenti versioni della famiglia Claude nelle aree del coding agentico, della gestione autonoma degli strumenti e dell’analisi di sicurezza informatica. Anthropic sottolinea che non si tratta di un semplice miglioramento incrementale ma di un salto architetturale che amplia significativamente le capacità operative del modello. Le prestazioni emergono soprattutto nei contesti reali, dove il sistema deve coordinare più operazioni, mantenere memoria contestuale e produrre risultati coerenti attraverso lunghe catene di ragionamento.

Le salvaguardie integrate per limitare gli abusi

Una delle particolarità di Claude Fable 5 è la presenza di un articolato sistema di protezioni progettato per impedire che le capacità avanzate del modello vengano utilizzate in modo offensivo. Anthropic spiega che la versione originale di Mythos è stata considerata troppo potente per un rilascio aperto a causa della sua efficacia nell’identificazione e nello sfruttamento di vulnerabilità. Per questo motivo la variante pubblica integra diversi livelli di salvaguardia. Quando il sistema rileva richieste che superano determinate soglie di rischio, il comportamento viene automaticamente trasferito verso Claude Opus 4.8, che applica criteri più conservativi nella generazione delle risposte. Sono inoltre presenti classificatori dedicati che bloccano tentativi di ottenere informazioni relative alla sintesi di sostanze chimiche pericolose, materiali biologici sensibili o dettagli interni sull’architettura del modello stesso. Questo approccio consente ad Anthropic di mettere a disposizione una piattaforma estremamente potente riducendo al minimo i rischi di utilizzo improprio, una sfida che sta diventando centrale per tutte le aziende impegnate nello sviluppo di modelli di frontiera.

I test di XBOW mostrano capacità avanzate nella cybersecurity

Prima del lancio pubblico, il preview di Mythos è stato sottoposto a una lunga fase di valutazione da parte di XBOW, team specializzato in sicurezza offensiva. I ricercatori hanno utilizzato applicazioni open source contenenti vulnerabilità note e deliberate per verificare la capacità del modello di individuare falle e generare percorsi di attacco realistici. I risultati mostrano un miglioramento significativo rispetto alle generazioni precedenti. Secondo i dati pubblicati da Anthropic, il numero di falsi negativi diminuisce del 42% rispetto a Claude Opus 4.6 e del 55% quando il sistema può accedere direttamente al codice sorgente.

Ecco Claude Fable 5, ma Anthropic lancia l'allarme: "L'AI rischia di sfuggire al controllo umano" 5

Mythos Preview riesce inoltre a raggiungere livelli di precisione superiori con un numero inferiore di iterazioni e produce analisi particolarmente efficaci nei contesti di threat modeling, validazione delle vulnerabilità e reverse engineering. Nei test relativi al codice nativo, il modello individua un numero maggiore di bug reali all’interno di progetti complessi come Chromium e V8, riducendo contemporaneamente la quantità di falsi positivi. Gli esperti di XBOW evidenziano soprattutto la qualità delle spiegazioni tecniche e la capacità del modello di ragionare su scenari complessi che coinvolgono più componenti software.

Mythos 5 viene distribuito ai ricercatori fidati

Ecco Claude Fable 5, ma Anthropic lancia l'allarme: "L'AI rischia di sfuggire al controllo umano" 6

La versione completa denominata Mythos 5 rappresenta l’aspetto più delicato dell’intero progetto. Anthropic ha scelto di distribuirla esclusivamente a un gruppo ristretto di partner selezionati attraverso il programma Glasswing. Tra i destinatari figurano fornitori di infrastrutture critiche, ricercatori di cybersecurity e organizzazioni impegnate nella difesa di sistemi strategici. Questa variante mantiene tutte le capacità del modello senza le limitazioni presenti in Claude Fable 5, consentendo attività avanzate di ricerca delle vulnerabilità e simulazione degli attacchi. Anthropic la definisce la piattaforma di cybersecurity più potente mai sviluppata dall’azienda e ritiene che il suo impiego controllato possa contribuire a rafforzare la sicurezza complessiva delle infrastrutture digitali. L’accesso rimane però estremamente limitato proprio per evitare che strumenti di tale livello possano essere sfruttati da soggetti ostili. La distinzione tra la versione pubblica e quella riservata rappresenta uno dei primi esempi concreti di differenziazione delle capacità operative all’interno della stessa architettura di intelligenza artificiale.

Anthropic lancia l’allarme sull’auto-miglioramento ricorsivo

Parallelamente al rilascio di Claude Fable 5, Anthropic ha pubblicato il documento intitolato “When AI builds itself”, dedicato ai rischi dell’auto-miglioramento ricorsivo. Il rapporto affronta uno degli scenari più discussi nella comunità scientifica: la possibilità che i modelli futuri diventino in grado di contribuire direttamente allo sviluppo delle generazioni successive. Secondo Anthropic, questa dinamica è già iniziata. L’azienda afferma infatti che oltre l’80% del codice che viene integrato nei propri sistemi di produzione è ormai scritto da modelli di intelligenza artificiale. Si tratta di una crescita impressionante rispetto a pochi anni fa, quando il contributo dell’IA allo sviluppo software era limitato a una percentuale marginale. Il documento sostiene che l’accelerazione derivante da questa tendenza potrebbe portare a una situazione nella quale il controllo umano rimarrebbe formalmente presente ma perderebbe progressivamente efficacia pratica. Se i sistemi diventassero responsabili della progettazione e dell’ottimizzazione delle generazioni successive, comprendere in profondità i processi interni potrebbe diventare sempre più difficile per gli sviluppatori umani.

Il rischio di perdere il controllo logico dei modelli

Uno degli aspetti più preoccupanti evidenziati da Anthropic riguarda la possibilità che piccoli fenomeni di misalignment già osservabili oggi possano amplificarsi durante processi di miglioramento ricorsivo. Errori rari o comportamenti inattesi potrebbero diventare progressivamente più frequenti e più difficili da interpretare man mano che la complessità dei sistemi aumenta. Il rapporto non sostiene che questo scenario sia inevitabile né che si manifesterà nel breve periodo, ma invita il settore a considerarlo come una possibilità concreta da affrontare attraverso strumenti di governance adeguati. Anthropic collega esplicitamente queste riflessioni alle capacità dimostrate dall’architettura Mythos. Proprio perché modelli come Claude Fable 5 mostrano livelli di autonomia e competenza sempre maggiori, diventa essenziale sviluppare meccanismi in grado di garantire trasparenza, verificabilità e controllo umano significativo. Il documento rappresenta uno dei più espliciti richiami alla prudenza provenienti da una delle aziende che stanno guidando la corsa globale all’intelligenza artificiale avanzata.

Le conseguenze per aziende, sviluppatori e utenti

L’arrivo di Claude Fable 5 modifica sensibilmente il panorama competitivo dell’intelligenza artificiale. Le nuove capacità nel coding, nell’analisi tecnica e nell’uso degli strumenti promettono di accelerare ulteriormente la produttività di sviluppatori, ricercatori e professionisti della conoscenza. Allo stesso tempo, l’avvertimento di Anthropic evidenzia come l’incremento delle prestazioni non possa più essere considerato un obiettivo isolato dalla questione della sicurezza e della governance. Le organizzazioni che integrano questi sistemi nei propri processi dovranno affrontare sfide sempre più complesse legate alla supervisione delle decisioni automatiche, alla verifica dei risultati e alla gestione dei rischi emergenti. La disponibilità di modelli capaci di individuare vulnerabilità, scrivere codice sofisticato e contribuire allo sviluppo di nuovi sistemi introduce opportunità enormi ma richiede anche nuove forme di responsabilità. Anthropic sembra voler posizionare la propria strategia proprio su questo equilibrio tra innovazione e prudenza, promuovendo modelli sempre più potenti ma accompagnandone il rilascio con una riflessione pubblica sui possibili effetti a lungo termine.

La strategia futura della famiglia Mythos

Il lancio di Claude Fable 5 rappresenta soltanto il primo passo della strategia di lungo periodo costruita attorno all’architettura Mythos. Anthropic ha già dichiarato l’intenzione di integrare progressivamente il modello come componente standard dei propri abbonamenti non appena la disponibilità di risorse computazionali lo renderà possibile. Parallelamente continuerà l’espansione controllata del programma Glasswing, consentendo a un numero crescente di partner fidati di utilizzare Mythos 5 per attività di difesa avanzata. Il percorso che ha portato dal preview testato da XBOW alla disponibilità pubblica di Claude Fable 5 mostra una nuova fase nello sviluppo delle IA di frontiera. Da un lato emergono capacità che ridefiniscono gli standard di settore in ambiti come cybersecurity, sviluppo software e ragionamento complesso. Dall’altro cresce la consapevolezza che il vero problema non sia più soltanto costruire modelli più intelligenti, ma garantire che il loro sviluppo rimanga comprensibile, controllabile e compatibile con gli interessi umani nel lungo periodo.

Iscriviti alla Newsletter

Non perdere le analisi settimanali: Entra nella Matrice Digitale.

Matrice Digitale partecipa al Programma Affiliazione Amazon EU. In qualità di Affiliato Amazon, ricevo un guadagno dagli acquisti idonei. Questo non influenza i prezzi per te.