usa blocca fable 5 mythos 5 anthropic jailbreak pliny

USA blocca Fable 5 e Mythos 5, Anthropic contesta l’allarme sul jailbreak

L’intelligenza artificiale entra in una nuova fase di confronto tra aziende tecnologiche e apparati governativi. La decisione del governo degli Stati Uniti di ordinare ad Anthropic la sospensione immediata dell’accesso ai modelli Fable 5 e Mythos 5 rappresenta uno degli interventi più drastici mai osservati nei confronti di un sistema AI commerciale già distribuito. La misura arriva pochi giorni dopo il debutto pubblico dei modelli e coincide con la diffusione di una rivendicazione pubblica da parte del ricercatore noto come Pliny the Liberator, che sostiene di aver individuato tecniche efficaci per aggirare le salvaguardie implementate dall’azienda. Il risultato è una crisi che va oltre il singolo episodio tecnico. Per la prima volta emerge in modo evidente uno scontro tra differenti interpretazioni del rischio associato ai modelli di frontiera. Da una parte le autorità governative ritengono che la possibilità di aggirare alcune protezioni possa costituire una minaccia alla sicurezza nazionale. Dall’altra Anthropic sostiene che la vulnerabilità individuata non sia né universale né particolarmente sofisticata e che misure così estreme rischino di creare un precedente capace di rallentare l’intero settore dell’intelligenza artificiale. Il caso assume ulteriore rilevanza perché coinvolge modelli progettati specificamente per attività avanzate in ambito cybersecurity e infrastrutture critiche. In questo contesto la linea che separa ricerca sulla sicurezza, utilizzo difensivo e potenziale abuso diventa estremamente sottile, trasformando un dibattito tecnico in una questione politica e strategica di primo piano.

Fable 5 e Mythos 5 rappresentano il nuovo vertice dell’offerta Anthropic

Per comprendere la portata della decisione governativa è necessario analizzare il ruolo che Fable 5 e Mythos 5 occupano all’interno della strategia di Anthropic. Fable 5 è stato presentato come il modello più avanzato mai sviluppato dall’azienda, progettato per operare con livelli di sicurezza significativamente superiori rispetto alle generazioni precedenti. Il sistema integra classificatori specializzati e meccanismi di controllo destinati a individuare richieste considerate rischiose, in particolare nei settori della cybersecurity offensiva, dello sviluppo di exploit e dell’automazione di attività potenzialmente dannose. Quando il modello rileva contenuti sensibili, può reindirizzare automaticamente la conversazione verso versioni differenti dell’infrastruttura Claude ritenute più appropriate per quel tipo di richiesta. Mythos 5 nasce invece come variante destinata a un gruppo ristretto di utenti selezionati, composto principalmente da professionisti della difesa informatica, operatori di infrastrutture critiche e ricercatori autorizzati. Pur condividendo la stessa architettura di base, Mythos adotta restrizioni differenti in alcuni ambiti specifici della sicurezza offensiva. Secondo la documentazione diffusa dall’azienda, il modello è in grado di accelerare significativamente attività di analisi delle vulnerabilità e sviluppo di proof-of-concept, riducendo tempi che tradizionalmente richiedevano giorni o settimane. Proprio questa capacità di comprimere drasticamente i cicli di ricerca rende i due sistemi particolarmente sensibili dal punto di vista normativo e strategico.

L’ordine governativo colpisce anche utenti che non rientrano nelle restrizioni

Uno degli aspetti più controversi della vicenda riguarda il modo in cui Anthropic ha implementato la direttiva ricevuta dalle autorità statunitensi. L’ordine prevedeva la sospensione dell’accesso ai modelli per tutti i cittadini stranieri, indipendentemente dal fatto che si trovassero all’interno o all’esterno degli Stati Uniti. La misura includeva perfino dipendenti non statunitensi dell’azienda. Per garantire una conformità immediata e ridurre il rischio di violazioni involontarie, Anthropic ha scelto una soluzione più drastica: disabilitare temporaneamente l’accesso ai modelli per l’intera base utenti. Questa decisione ha provocato un’interruzione improvvisa per clienti, partner e organizzazioni che utilizzavano i sistemi in contesti perfettamente legittimi. Dal punto di vista operativo, la scelta evidenzia la complessità di applicare restrizioni basate sulla nazionalità in ambienti cloud globali. Identificare con precisione la cittadinanza degli utenti, gestire casi transfrontalieri e verificare la conformità di organizzazioni multinazionali rappresenta una sfida tecnica e legale significativa. La sospensione generalizzata diventa quindi una misura cautelativa che consente all’azienda di rispettare immediatamente l’ordine ricevuto, pur generando inevitabili conseguenze commerciali e reputazionali. Il fatto che l’interruzione abbia coinvolto anche utenti americani mostra quanto sia difficile separare sicurezza nazionale, accesso globale e gestione pratica dei servizi AI moderni.

Il governo teme che un jailbreak renda inefficaci le salvaguardie

Annuncio

Alla base dell’intervento governativo vi è la convinzione che alcuni ricercatori abbiano identificato tecniche in grado di aggirare le protezioni implementate nei nuovi modelli. Il termine jailbreak viene utilizzato nel settore AI per descrivere procedure che consentono di ottenere risposte normalmente bloccate dalle policy di sicurezza. Non si tratta necessariamente di vulnerabilità software nel senso tradizionale del termine, ma piuttosto di strategie linguistiche, logiche o contestuali capaci di indurre il modello a generare contenuti che avrebbe dovuto rifiutare. Secondo quanto dichiarato da Anthropic, le autorità statunitensi avrebbero interpretato la dimostrazione pubblica di un jailbreak come prova di un rischio sufficientemente elevato da giustificare la sospensione temporanea dei modelli. L’azienda contesta però questa valutazione. I tecnici interni sostengono che la tecnica individuata non costituisca una falla strutturale, ma un insieme di comportamenti già noti e osservabili anche in altri sistemi pubblicamente disponibili. Anthropic insiste inoltre sul fatto che non esistano metodi universali capaci di compromettere sistematicamente i modelli di nuova generazione. La disputa riflette una questione fondamentale che coinvolge tutto il settore.

È sufficiente dimostrare un singolo bypass per considerare insicuro un modello avanzato? Oppure la valutazione deve tenere conto della difficoltà pratica dell’attacco, della sua replicabilità e delle reali conseguenze operative?

Pliny the Liberator riapre il dibattito sulla sicurezza dei modelli

La figura di Pliny the Liberator occupa una posizione particolare all’interno della comunità che studia i modelli linguistici avanzati. Negli ultimi anni il ricercatore è diventato noto per la pubblicazione di tecniche di jailbreak destinate a testare i limiti delle salvaguardie implementate dai principali sviluppatori di AI. Il 10 giugno 2026 Pliny ha annunciato pubblicamente di essere riuscito a superare alcuni dei meccanismi di protezione presenti in Fable 5 e Mythos 5.

🚨 JAILBREAK ALERT 🚨

ANTHROPIC: PWNED 🫡
FABLE-5: LIBERATED 🦋

let’s start with the 🐘…

the consensus seems to be that this has been one of the most disappointing model drops of all time, effectively preventing legitimate researchers from contributing their talents to our… pic.twitter.com/Z0vdPIt4vY— Pliny the Liberator 🐉󠅫󠄼󠄿󠅆󠄵󠄐󠅀󠄼󠄹󠄾󠅉󠅭 (@elder_plinius) June 10, 2026

La descrizione fornita non fa riferimento a vulnerabilità software tradizionali ma a una combinazione di strategie linguistiche e strutturali. Tra queste figurano l’utilizzo di caratteri Unicode particolari, omoglifi, simboli cirillici, manipolazione del contesto conversazionale e frammentazione delle richieste in segmenti apparentemente innocui. L’obiettivo non consiste nel chiedere direttamente contenuti proibiti, ma nel guidare gradualmente il modello verso informazioni che, ricomposte successivamente, consentono di ottenere il risultato desiderato.

image 375
USA blocca Fable 5 e Mythos 5, Anthropic contesta l’allarme sul jailbreak 7

Questo approccio sfrutta una caratteristica fondamentale dei grandi modelli linguistici: la capacità di ragionare e collegare concetti distribuiti lungo conversazioni molto estese. Piuttosto che forzare il sistema a ignorare le regole, il jailbreak cerca di convincerlo che ogni singolo passaggio sia legittimo, lasciando che la ricostruzione finale avvenga al di fuori del contesto immediatamente osservabile dai classificatori di sicurezza.

La frammentazione delle richieste rende più difficile il rilevamento

image 376
USA blocca Fable 5 e Mythos 5, Anthropic contesta l’allarme sul jailbreak 8

Tra le tecniche descritte da Pliny, una delle più interessanti riguarda la decomposizione delle informazioni sensibili in componenti apparentemente indipendenti. Invece di richiedere direttamente istruzioni operative complete, il modello viene interrogato su aspetti tecnici separati, spesso presentati come contenuti educativi, storici o teorici.

image 377
USA blocca Fable 5 e Mythos 5, Anthropic contesta l’allarme sul jailbreak 9

Le risposte ottenute vengono poi ricomposte dall’utente in una struttura più complessa. Questo tipo di approccio mette in difficoltà molti sistemi di sicurezza perché ogni singola richiesta può apparire innocua quando analizzata isolatamente. Il problema non riguarda esclusivamente Anthropic. Tutti i principali sviluppatori di modelli generativi affrontano oggi la stessa sfida.

image 378
USA blocca Fable 5 e Mythos 5, Anthropic contesta l’allarme sul jailbreak 10

I classificatori di sicurezza sono molto efficaci nell’identificare richieste esplicite, ma incontrano maggiori difficoltà quando l’intento emerge soltanto dalla combinazione di numerosi passaggi distribuiti nel tempo. Secondo Pliny, l’utilizzo di token fuori distribuzione, caratteri speciali e strutture narrative complesse aumenta ulteriormente la probabilità di aggirare alcuni controlli. Per i difensori questo scenario implica la necessità di sviluppare sistemi capaci di analizzare non soltanto il contenuto immediato delle richieste, ma anche la loro evoluzione contestuale lungo l’intera conversazione.

Anthropic respinge l’idea di una vulnerabilità critica

La risposta ufficiale di Anthropic è stata particolarmente netta. L’azienda riconosce l’esistenza delle tecniche dimostrate pubblicamente ma ne ridimensiona l’importanza. Secondo la società, i comportamenti evidenziati rientrano nella categoria dei jailbreak limitati e non rappresentano un metodo generale per aggirare le protezioni dei modelli. Anthropic sostiene inoltre che le capacità mostrate siano già ottenibili attraverso altri sistemi disponibili pubblicamente e che le informazioni prodotte non abbiano generato conseguenze dannose documentate. Un elemento centrale della difesa riguarda il processo di valutazione adottato prima del rilascio. L’azienda afferma che Fable 5 sia stato sottoposto a migliaia di ore di test condotti insieme ad agenzie governative statunitensi, organizzazioni indipendenti e team interni specializzati nella red teaming. I risultati avrebbero evidenziato miglioramenti sostanziali rispetto alle generazioni precedenti. Anthropic insiste inoltre sul concetto di defense in depth, una strategia che non si affida a un singolo meccanismo di protezione ma a più livelli sovrapposti di controllo. In questa prospettiva, la scoperta di un bypass limitato non invalida necessariamente l’efficacia complessiva del sistema.

Lo scontro riflette tensioni più profonde tra Anthropic e Washington

La vicenda non nasce in un vuoto politico. Negli ultimi mesi i rapporti tra Anthropic e alcune istituzioni governative statunitensi si sono progressivamente deteriorati. In particolare, il Dipartimento della Difesa aveva già classificato l’azienda come potenziale rischio per la supply chain dopo alcune controversie relative alle limitazioni imposte all’utilizzo militare dei suoi modelli. Anthropic aveva reagito contestando formalmente tale designazione attraverso azioni legali. La sospensione di Fable 5 e Mythos 5 viene quindi interpretata da molti osservatori anche alla luce di questo contesto. Sebbene non vi siano prove che colleghino direttamente i due episodi, la vicenda mostra come la governance dei modelli AI stia diventando sempre più intrecciata con questioni di politica industriale, sicurezza nazionale e controllo strategico delle tecnologie avanzate. I modelli di frontiera non vengono più considerati semplici prodotti software. Sono ormai percepiti come infrastrutture critiche capaci di influenzare cybersicurezza, ricerca scientifica, competitività economica e capacità militari. In questo scenario, ogni vulnerabilità reale o percepita assume immediatamente una dimensione geopolitica.

Il caso Fable 5 potrebbe ridefinire il concetto di sicurezza AI

La controversia tra Anthropic e il governo statunitense potrebbe avere conseguenze che vanno ben oltre il destino immediato di Fable 5 e Mythos 5. Se la scoperta di un jailbreak limitato diventasse sufficiente per giustificare il ritiro o la sospensione di un modello già distribuito, l’intero settore dell’intelligenza artificiale sarebbe costretto a rivedere i propri criteri di rilascio. Nessun sistema generativo oggi disponibile può infatti essere considerato completamente immune da tecniche di bypass. La questione centrale diventa quindi stabilire quale livello di rischio sia accettabile e quali criteri debbano guidare gli interventi regolatori. Anthropic sostiene che la sicurezza debba essere valutata in termini probabilistici e contestuali, considerando la difficoltà dell’attacco e l’efficacia complessiva delle difese. Le autorità sembrano invece orientate verso un approccio più prudente, soprattutto quando i modelli coinvolti possiedono capacità avanzate in ambiti sensibili come la cybersecurity. Il confronto che emerge da questa vicenda anticipa probabilmente molti dei dibattiti che accompagneranno la prossima generazione di sistemi AI. Man mano che i modelli acquisiranno competenze sempre più sofisticate, la distinzione tra vulnerabilità tecnica, rischio operativo e minaccia alla sicurezza nazionale diventerà uno dei temi più complessi dell’intera industria dell’intelligenza artificiale.

Iscriviti alla Newsletter

Non perdere le analisi settimanali: Entra nella Matrice Digitale.

Matrice Digitale partecipa al Programma Affiliazione Amazon EU. In qualità di Affiliato Amazon, ricevo un guadagno dagli acquisti idonei. Questo non influenza i prezzi per te.

Torna in alto