Anthropic: attacchi distillazione AI da laboratori cinesi

Anthropic porta allo scoperto un problema che nel 2026 smette di essere un “tema da addetti ai lavori” e diventa una frattura geopolitica: la distillazione illecita di modelli avanzati, usata non per ottimizzare un prodotto interno ma per estrarre capacità da un sistema concorrente e trasferirle, in tempi rapidi, dentro modelli che non ereditano gli stessi vincoli di sicurezza. La società parla di campagne su scala industriale attribuite a tre laboratori AI cinesi, DeepSeek, Moonshot AI e MiniMax, che avrebbero generato oltre 16 milioni di scambi fraudolenti attraverso circa 24.000 account falsi per potenziare i propri sistemi usando come sorgente Claude. Il punto, nella versione di Anthropic, non è solo la violazione dei termini di servizio e delle restrizioni regionali. È la trasformazione dell’API in un impianto estrattivo, un “pozzo” da cui tirare fuori ragionamento agentico, tool use, codifica, fino alle tracce di ragionamento. Se questa filiera funziona, il vantaggio competitivo non viene più eroso in mesi o anni. Viene eroso in settimane, talvolta in giorni, perché Anthropic sostiene che alcune campagne avrebbero pivotato su nuovi modelli Claude entro 24 ore dal lancio. In questa cornice, la distillazione smette di essere solo un tema di proprietà intellettuale. Diventa un problema di proliferazione: modelli distillati che replicano capacità ma non replicano guardrail, policy e controlli. Anthropic lega esplicitamente il rischio a scenari di abuso ad alta severità, come cyber offensive, disinformazione, sorveglianza e persino abilitazioni per minacce biologiche. È un linguaggio che segnala una scelta: portare la questione sul piano della sicurezza nazionale e chiedere un’azione coordinata tra industria, cloud provider e decisori politici.

Cosa leggere

Che cos’è la distillazione e perché è diversa quando diventa “illecita”

La distillazione, nella sua forma legittima, è una tecnica comune. Un modello grande produce output di qualità e quel corpus viene usato per addestrare modelli più piccoli ed efficienti, utili per deployment su edge, riduzione costi o casi d’uso specializzati. È una pratica che, in molte aziende, serve a rendere sostenibile il passaggio dalla demo al prodotto. Anthropic però descrive un salto di qualità: la distillazione non come scelta ingegneristica interna, ma come strategia competitiva condotta su scala industriale, alimentata da una raccolta massiva di output tramite prompt artigianali e volumi tali da distinguersi nettamente dal traffico normale. In questo scenario, l’attaccante non sta “usando” il modello. Sta campionando il modello, cercando di ricostruirne capacità, stili di ragionamento e pattern di risposta. Non gli interessa la risposta singola. Gli interessa la distribuzione delle risposte. E qui entra la parte più delicata: l’oggetto del valore non è soltanto la capacità di risolvere compiti, ma la capacità di farlo in modo affidabile e generalizzabile. Se un attore riesce a estrarre dataset sufficienti su agentic reasoning, grading per sistemi reward, tool orchestration e coding agentico, può accelerare l’addestramento di modelli che si comportano “come” un modello di frontiera in classi di compiti ad alto valore. Anthropic insiste su un elemento che, nel dibattito pubblico, torna spesso in modo confuso: la distillazione non è automaticamente “male”. È la distillazione non autorizzata, condotta con account fraudolenti, proxy e mascheramento del traffico, a trasformarsi in un attacco. La differenza non è morale, è operativa: scala, coordinamento, intenzione e violazione delle policy di accesso.

La scala: 16 milioni di scambi e 24.000 account, come si costruisce un’estrazione industriale

Annuncio

I numeri citati da Anthropic hanno un significato preciso. Sedici milioni di scambi non sono un “uso intenso”. Sono un piano strutturato per generare un dataset di distillazione. E i 24.000 account falsi indicano che l’obiettivo non è semplicemente eludere limiti di quota, ma costruire ridondanza, resilienza e una capacità di rotazione che renda difficile bloccare l’operazione con ban singoli. Anthropic parla di architetture tipo hydra cluster, cioè infrastrutture composte da proxy e servizi intermedi che smistano traffico, alternano origini, mescolano richieste legittime con richieste distillative e provano a far apparire il tutto come “rumore” in un mare di API call. Questo è il punto spesso sottovalutato: le campagne più efficaci non sono quelle che si presentano come attacco evidente, ma quelle che cercano di diventare indistinguibili dalla normalità. Nel modello di Anthropic, la distillazione industriale si riconosce perché mostra pattern ripetitivi, strutture di prompt ricorrenti, sincronizzazione nel timing e un focus su capacità specifiche di alto valore. Non è l’utente che chiede “come faccio a…”. È un sistema che chiede “dammi 100.000 varianti di…”, “valuta questa risposta con rubric”, “mostrami come useresti tool X in contesto Y”, “produci traccia di ragionamento su compito Z”, spesso con una regolarità che tradisce l’automazione.

Cosa cercavano: ragionamento agentico, tool use, codifica, tracce di ragionamento

Anthropic descrive un targeting preciso. Non una raccolta generica di output “belli”. Ma una mappatura di capacità che, in questa fase del mercato, definiscono la differenza tra un modello che conversa e un modello che agisce. Nel caso di Moonshot AI, l’attenzione sarebbe stata su agentic reasoning, tool use, coding, analisi dati, capacità di “computer-use” e aspetti legati alla visione. Sono aree dove i modelli di frontiera non si limitano a rispondere: pianificano, chiamano strumenti, orchestrano passaggi, verificano risultati. È anche il tipo di capacità che può essere “impacchettata” dentro prodotti commerciali in modo più rapido, perché consente automazioni e agenti. MiniMax sarebbe stata associata a un volume ancora più grande, fino a 13 milioni di query, con focus su codifica agentica e orchestrazione. È un segnale che l’estrazione non è fine a sé stessa: serve ad alimentare pipeline di sviluppo, magari per agenti che scrivono codice, integrano API, eseguono task su ambienti controllati. DeepSeek viene descritta con numeri inferiori (oltre 150.000 scambi in una parte della ricostruzione), ma con un target molto specifico: ragionamento e grading rubric-based per rinforzo e reward modeling, oltre a richieste orientate a ottenere “alternative sicure” per query sensibili. Qui l’obiettivo sembra doppio: da un lato migliorare la qualità del modello attraverso sistemi di valutazione, dall’altro capire come un modello di frontiera gestisce zone proibite e quali trasformazioni applica alle risposte.

Perché le “tracce di ragionamento” sono così appetibili

La menzione delle tracce di ragionamento è uno degli elementi più esplosivi della ricostruzione, perché tocca un nervo scoperto dell’industria: il confine tra spiegabilità e sicurezza. Quando un modello produce una traccia dettagliata di come arriva a una risposta, quell’output può contenere strutture, euristiche e strategie che diventano dati di addestramento ad altissima densità informativa. In altre parole, non stai distillando solo la risposta finale. Stai distillando il “metodo”. Anthropic collega questo punto a un rischio diretto: modelli distillati che replicano capacità ma non replicano le stesse barriere contro l’abuso. Un laboratorio che ottiene dataset di tracce di ragionamento può addestrare un modello che non solo risponde bene, ma risponde bene anche quando l’utente chiede cose che i guardrail avrebbero dovuto bloccare o deviare. È qui che l’azienda introduce il linguaggio della sicurezza nazionale: la qualità del ragionamento, se disaccoppiata dalle policy, diventa una potenza “portatile”.

Attribuzione: IP, metadati e corrispondenze con profili pubblici

Anthropic sostiene di aver attribuito le campagne combinando correlazioni IP, metadati delle richieste, indicatori infrastrutturali e conferme da partner industriali. In alcune parti della ricostruzione, l’azienda afferma che i metadati avrebbero mostrato corrispondenze con profili pubblici di staff senior, un dettaglio che serve a rafforzare l’idea di un’operazione non improvvisata, ma collegata a team e obiettivi di laboratorio. Qui va chiarito un punto di metodo: attribuzione, in questi contesti, non significa “colpevolezza provata in tribunale”. Significa ricostruzione tecnico-operativa di una catena di segnali coerenti. Anthropic sembra voler comunicare che la prova non è un singolo elemento, ma la convergenza di molti: comportamenti coordinati, pagamenti condivisi, prompt ripetitivi, infrastrutture proxy, timing aggressivo sui nuovi rilasci. Il dato temporale “entro 24 ore dal lancio” è parte di questa attribuzione comportamentale. Se un set di account si attiva in modo sincronizzato e punta esattamente alle nuove capacità, non è un caso d’uso casuale. È un tentativo di catturare “il delta” prima che le difese si adattino.

Il nodo geopolitico: distillazione come aggiramento degli export control

Anthropic lega esplicitamente la distillazione industriale a un altro tema caldo: i controlli export USA su chip avanzati. L’argomento è lineare e, nella sua semplicità, è potente. Se i controlli limitano la capacità di addestrare modelli di frontiera da zero, la distillazione illegale diventa una scorciatoia per ottenere capacità simili senza la stessa infrastruttura hardware e senza superare gli stessi vincoli di supply chain. Non è che la distillazione elimini il bisogno di calcolo. Ma può ridurre drasticamente i costi per raggiungere livelli di performance “sufficienti” in specifiche aree. È un modo per comprimere il gap. E se questo processo avviene su scala industriale, i controlli export rischiano di diventare più permeabili di quanto si speri, perché la capacità non viene esportata come chip. Viene “estratta” come output. Anthropic presenta questa dinamica come una minaccia alla innovazione AI sicura, perché spinge verso un ecosistema dove attori esterni possono ottenere modelli potenti senza dover investire nelle stesse pratiche di safety, governance e auditing. In pratica, la safety diventa un costo competitivo. E i costi competitivi, quando il mercato corre, sono ciò che molti cercano di tagliare.

Rischi: modelli senza safeguard e proliferazione in regimi autoritari

Nel testo, Anthropic alza il livello del discorso: modelli distillati “mancano guardrail” e quindi possono abilitare usi ad alto rischio, dall’offensiva cyber alla disinformazione, fino a scenari biologici. È un framing che mira a due obiettivi contemporaneamente: giustificare investimenti difensivi aggressivi e spingere per una risposta coordinata che includa policymaker. Qui la questione non è solo “cosa può fare un modello”, ma “cosa impedisce a un modello di fare”. Se un modello potente viene distillato senza l’impianto di policy, senza monitoraggio e senza limitazioni di prodotto e API, la barriera tra uso legittimo e abuso si assottiglia. E, in contesti autoritari, la disponibilità di modelli forti e poco vincolati può essere un moltiplicatore per sorveglianza, repressione e controllo informativo. Anthropic suggerisce anche un rischio sistemico per la fiducia: se proliferano modelli non sicuri, l’intero settore può subire backlash regolatorio. In altre parole, la distillazione industriale non è solo un problema tra competitor. È un problema che può cambiare le regole del gioco per tutti.

Le difese di Anthropic: classificatori, fingerprinting comportamentale e contromisure API

La parte più concreta della comunicazione di Anthropic riguarda le contromisure. L’azienda parla di sistemi di rilevamento basati su classificatori e fingerprinting comportamentale per identificare pattern di distillazione nel traffico API. L’obiettivo è distinguere uso legittimo da estrazione, osservando volumi, ripetitività dei prompt, sincronizzazione multi-account, focus su capability ristrette e tentativi di ottenere output ad alta densità informativa. Anthropic descrive anche un rafforzamento dei controlli di accesso e verifiche, soprattutto in categorie dove gli attaccanti potrebbero infiltrarsi sfruttando programmi per ricerca, education o startup. È un equilibrio difficile: stringere troppo significa frenare l’ecosistema legittimo. Stringere troppo poco significa lasciare aperta la porta all’estrazione. Sul piano operativo, il messaggio è che la difesa non è un singolo blocco. È una serie di livelli: monitoraggio continuo, restrizioni regionali, controlli di pagamento e identità, contromisure di prodotto e API, e adattamento rapido quando emergono nuove tattiche. La frase chiave è che gli attaccanti evolvono, quindi anche la difesa deve evolvere, e deve farlo senza compromettere i casi d’uso leciti.

Intelligence sharing: perché Anthropic chiede una risposta coordinata

Anthropic insiste su un punto che, nel 2026, diventa sempre più frequente nel mondo AI: nessuna azienda può affrontare da sola attacchi transfrontalieri su scala industriale. Da qui l’appello a una risposta coordinata tra industria, cloud provider e policymaker, con condivisione di indicatori tecnici e visibilità collettiva. Questo tipo di cooperazione assomiglia sempre più ai modelli della cybersecurity tradizionale, dove l’intelligence sharing è un moltiplicatore di difesa. Ma in AI c’è un problema aggiuntivo: gran parte del traffico è legittimo, e l’estrazione può mimare l’uso normale. Serve quindi una qualità di segnale e una correlazione tra soggetti che un singolo provider può non vedere. In più, il cloud è un punto di leva enorme. Se la distillazione industriale passa per proxy e infrastrutture distribuite, i fornitori cloud possono essere il luogo dove osservare correlazioni e bloccare pattern. E se i policymaker vogliono che i controlli export abbiano efficacia, devono considerare anche questa dimensione “software” dell’aggiramento.

La distillazione come nuova frontiera del furto: non rubi pesi, rubi comportamento

Un modo efficace per comprendere questa fase è spostare lo sguardo: non stai rubando necessariamente i pesi del modello, non stai esfiltrando un file. Stai rubando un comportamento. Stai ricostruendo una funzione. L’attacco è più simile all’estrazione di know-how industriale che al data breach classico. E, proprio per questo, è più difficile da rendere “evidente” a un pubblico non tecnico. Anthropic sembra voler fare proprio questo: mostrare che l’attacco è misurabile, attribuibile e soprattutto impattante. Il messaggio sottostante è che l’AI di frontiera non è più soltanto un prodotto. È un asset strategico, e gli asset strategici attirano operazioni industriali, non improvvisazioni.

Cosa cambia per il mercato: velocità di copia e pressione sulla safety

Se la distillazione industriale diventa pratica diffusa, il mercato affronta due trasformazioni. La prima è la velocità di copia: le finestre di vantaggio si riducono, e il valore si sposta su distribuzione, integrazione e brand, ma anche su capacità di difendere l’asset. La seconda è la pressione sulla safety: se gli attori più aggressivi possono ottenere capacità senza pagare il costo dei guardrail, chi investe in safety rischia di essere penalizzato nel breve periodo. Da qui l’urgenza di regole condivise e di cooperazione. Non per moralismo, ma per evitare una corsa verso modelli potenti e meno vincolati, che poi costringerebbe governi e regolatori a risposte più drastiche. Anthropic, in sostanza, sta dicendo che la distillazione industriale è un vettore di proliferazione e che la proliferazione, nel lungo periodo, non conviene a nessuno.

Iscriviti alla Newsletter

Non perdere le analisi settimanali: Entra nella Matrice Digitale.

Matrice Digitale partecipa al Programma Affiliazione Amazon EU. In qualità di Affiliato Amazon, ricevo un guadagno dagli acquisti idonei. Questo non influenza i prezzi per te.