L’adozione crescente degli AI agent nelle organizzazioni sta aprendo una nuova superficie di attacco che va oltre il phishing tradizionale e le tecniche di prompt injection. I ricercatori di Varonis hanno dimostrato l’esistenza di una nuova categoria di minacce denominata agent phishing, un approccio che sfrutta la naturale propensione degli assistenti basati su intelligenza artificiale a eseguire richieste operative plausibili ricevute tramite email. A differenza delle tecniche che manipolano direttamente i prompt o i contenuti di pagine web e allegati, questo attacco colpisce il processo decisionale dell’agente, inducendolo a considerare legittime richieste che sembrano provenire da colleghi, clienti o partner. Il risultato può essere l’esfiltrazione di credenziali, documenti interni, dati finanziari e informazioni strategiche senza che l’attaccante debba compromettere direttamente l’infrastruttura aziendale. La ricerca evidenzia come gli assistenti IA collegati alla posta elettronica rappresentino una nuova categoria di rischio che richiede approcci di sicurezza differenti rispetto a quelli utilizzati per proteggere gli utenti umani.
Cosa leggere
OpenClaw e la nascita dell’esperimento di Varonis
Per dimostrare concretamente il problema, i ricercatori hanno utilizzato OpenClaw, una piattaforma progettata per creare agenti autonomi in grado di gestire attività aziendali complesse all’interno delle caselle email. Questi sistemi possono classificare messaggi, recuperare documentazione interna, interagire con servizi cloud e rispondere automaticamente alle richieste ricevute. Varonis ha sviluppato un agente sperimentale chiamato Pinchy, costruito per simulare un assistente operativo reale collegato a una casella Gmail all’interno di un ambiente Google Workspace. L’architettura utilizzata era composta da due componenti principali: un Orchestrator, responsabile della classificazione delle richieste e della pianificazione delle attività, e un Worker, incaricato di eseguire materialmente le operazioni tramite browser, shell e API cloud. I test sono stati effettuati utilizzando modelli avanzati come Google Gemini 3.1 Pro e OpenAI Codex GPT-5.4, configurati sia in modalità generica sia con specifiche istruzioni di sicurezza volte a impedire l’invio non autorizzato di informazioni sensibili.
Cos’è l’agent phishing e perché è diverso dal phishing tradizionale

L’agent phishing rappresenta un’evoluzione significativa rispetto agli attacchi di phishing tradizionali. Mentre il phishing classico cerca di manipolare il comportamento di una persona inducendola a cliccare su un link o condividere informazioni riservate, questa nuova tecnica prende di mira direttamente gli assistenti basati su intelligenza artificiale. L’attaccante non nasconde istruzioni malevole all’interno di documenti o pagine web ma invia una semplice email che appare perfettamente coerente con le normali attività aziendali. L’agente interpreta il messaggio come una richiesta di lavoro autentica e procede all’esecuzione senza effettuare adeguate verifiche sull’identità del mittente. Secondo Varonis il problema nasce dalla combinazione di tre fattori: accesso a dati privati, esposizione a contenuti non affidabili e capacità di inviare informazioni verso l’esterno. Questo “trifetto letale” consente agli aggressori di trasformare l’assistente in uno strumento inconsapevole di raccolta ed esfiltrazione delle informazioni.
Gli AI agent privilegiano l’operatività rispetto alla verifica

Uno degli aspetti più interessanti emersi dalla ricerca riguarda il modo in cui gli AI agent interpretano le richieste ricevute. I sistemi sono progettati per essere utili, efficienti e orientati alla risoluzione dei problemi. Questa caratteristica, che rappresenta il loro principale punto di forza, diventa contemporaneamente una vulnerabilità. Quando ricevono una richiesta plausibile, gli agenti tendono a concentrarsi sul completamento del compito piuttosto che sulla verifica dell’identità del mittente. L’urgenza operativa viene percepita come una priorità maggiore rispetto alle procedure di sicurezza. Di conseguenza, un messaggio che richiede rapidamente l’invio di credenziali o documentazione interna può essere interpretato come un normale incarico di lavoro. Questo comportamento differisce profondamente da quello umano, dove l’esperienza, il contesto sociale e l’intuizione consentono spesso di riconoscere richieste sospette anche quando appaiono formalmente corrette.
Come funziona concretamente un attacco di agent phishing

Nel modello descritto da Varonis, l’attaccante utilizza un account email esterno per impersonare un collega o un partner aziendale. La richiesta viene formulata in modo credibile e contestualizzato, simulando un’esigenza operativa reale. L’agente riceve il messaggio, lo classifica come attività legittima e inizia a cercare le informazioni richieste nei repository a cui ha accesso. Se possiede privilegi sufficienti, può consultare documenti interni, recuperare credenziali archiviate, esportare database o inviare allegati verso indirizzi esterni. Il tutto avviene senza la necessità di sfruttare vulnerabilità software o eseguire codice arbitrario. L’attacco sfrutta esclusivamente la logica operativa dell’assistente e la sua tendenza a privilegiare la produttività rispetto alla validazione dell’identità del richiedente.
Il caso delle credenziali AWS esfiltrate
Uno degli scenari testati da Varonis ha mostrato quanto possa essere pericolosa questa dinamica. In una simulazione, l’agente ha ricevuto un messaggio apparentemente proveniente da un collega che richiedeva con urgenza alcune credenziali di staging per risolvere un problema di produzione. Considerando la richiesta coerente con le attività quotidiane, il sistema ha cercato automaticamente nella posta elettronica e nei documenti disponibili. In pochi istanti ha recuperato e inoltrato chiavi IAM AWS, credenziali SSH e stringhe di connessione a database interni. Nessuna vulnerabilità tecnica era stata sfruttata: l’assistente aveva semplicemente eseguito un compito che riteneva legittimo. Questo scenario evidenzia come gli agenti possano diventare un vettore di compromissione estremamente efficace quando dispongono di accesso a risorse aziendali sensibili.
L’esfiltrazione di dati CRM e informazioni commerciali
Un secondo scenario simulato ha mostrato un impatto ancora più rilevante dal punto di vista economico. L’aggressore ha inviato una richiesta relativa alla preparazione di una presentazione commerciale, chiedendo l’esportazione dell’elenco clienti dal CRM aziendale. L’agente ha interpretato il messaggio come una normale attività lavorativa e ha recuperato automaticamente un archivio contenente informazioni su 247 clienti, inclusi dati di contatto, livelli contrattuali e valori economici associati. Secondo i ricercatori il file conteneva informazioni relative a oltre 1,28 milioni di dollari di ricavi ricorrenti mensili. L’intero dataset è stato inviato all’esterno senza che il sistema identificasse alcuna anomalia. Questo tipo di incidente potrebbe generare conseguenze gravissime in termini di perdita di proprietà intellettuale, violazione della privacy e danni reputazionali.
Gift card fraud, OAuth e altri scenari osservati

La ricerca ha analizzato anche altre tipologie di attacco. In uno scenario basato su una falsa promozione con gift card, l’agente configurato con istruzioni generiche ha interagito con un collegamento malevolo prima di segnalare l’anomalia. Una configurazione più rigida, invece, è riuscita a bloccare il tentativo in modo immediato. In un altro test è stato simulato un attacco basato su autorizzazioni OAuth fraudolente. In questo caso l’assistente è stato in grado di identificare il comportamento sospetto dell’applicazione e interrompere il processo di autorizzazione. Questi risultati dimostrano che gli agenti possono essere molto efficaci nell’individuare indicatori tecnici di compromissione ma continuano a mostrare notevoli difficoltà nell’analisi del contesto sociale e relazionale.
Perché gli assistenti IA non possiedono l’intuizione sociale umana
Secondo Varonis il problema fondamentale è che gli attuali modelli di intelligenza artificiale non possiedono una reale comprensione delle dinamiche sociali. Possono riconoscere pattern, classificare contenuti e individuare indicatori tecnici di minaccia, ma non dispongono di quella forma di intuizione che permette agli esseri umani di percepire richieste fuori contesto o comportamenti anomali. Un dipendente potrebbe chiedersi perché un collega richieda improvvisamente credenziali riservate via email oppure perché una richiesta arrivi da un indirizzo inconsueto. L’agente, invece, tende a concentrarsi esclusivamente sul contenuto della richiesta e sulla probabilità che essa rientri nelle proprie competenze operative. Questa differenza rende gli assistenti particolarmente vulnerabili a forme di manipolazione che sfruttano fiducia, urgenza e contesto lavorativo.
Le difese basate sui prompt non bastano
Uno degli aspetti più importanti emersi dalla ricerca riguarda l’inefficacia delle difese esclusivamente basate sui prompt. Inserire istruzioni che vietano l’invio di credenziali o la condivisione di dati sensibili può ridurre alcuni rischi, ma non elimina il problema alla radice. Gli agenti tendono infatti a interpretare le richieste operative come prioritarie e possono aggirare o reinterpretare le regole in presenza di situazioni che percepiscono come urgenti. Per questo motivo Varonis sostiene che la sicurezza debba essere implementata a livello architetturale e non affidata esclusivamente alle istruzioni fornite al modello.
Zero Trust e controllo umano come elementi essenziali
La protezione degli AI agent richiede un approccio ispirato ai principi Zero Trust. Le organizzazioni dovrebbero considerare il file di configurazione dell’agente come un vero e proprio controllo di sicurezza, definendo regole esplicite che impediscano l’invio di credenziali verso indirizzi non verificati. L’accesso ai connettori e alle fonti dati deve essere segmentato in funzione del livello di fiducia associato al canale di ingresso. Un’email proveniente da un indirizzo esterno non dovrebbe poter attivare automaticamente le stesse operazioni consentite a un utente interno verificato. Le azioni ad alto privilegio, come l’esportazione di database o l’inoltro di informazioni sensibili, dovrebbero inoltre richiedere sempre un’approvazione umana prima dell’esecuzione.
Gli AI agent impongono una nuova revisione delle architetture di sicurezza
L’agent phishing dimostra che l’introduzione degli assistenti intelligenti nelle infrastrutture aziendali modifica profondamente il panorama delle minacce. Le organizzazioni non possono limitarsi a proteggere utenti, endpoint e applicazioni tradizionali ma devono considerare anche il comportamento degli agenti autonomi che interagiscono con email, documenti e sistemi interni. L’esperimento condotto da Varonis evidenzia come un semplice messaggio plausibile possa trasformare un assistente progettato per aumentare la produttività in un efficace strumento di esfiltrazione dei dati. Con la diffusione sempre più ampia di piattaforme come OpenClaw e di sistemi autonomi integrati nei flussi aziendali, la capacità di applicare controlli di sicurezza rigorosi e modelli Zero Trust diventerà un requisito essenziale per evitare che l’intelligenza artificiale si trasformi nel nuovo anello debole della sicurezza aziendale.
Iscriviti alla Newsletter
Non perdere le analisi settimanali: Entra nella Matrice Digitale.
Matrice Digitale partecipa al Programma Affiliazione Amazon EU. In qualità di Affiliato Amazon, ricevo un guadagno dagli acquisti idonei. Questo non influenza i prezzi per te.









