Il documento AgID del novembre 2025 evidenzia come gli agenti IA rappresentino una fase avanzata dei modelli linguistici, capaci di eseguire azioni reali tramite tool e function calling, ma anche di introdurre nuove superfici d’attacco legate al codice che li integra nei sistemi. Nel primo periodo emergono tre elementi centrali: la dimostrazione, tramite un Proof of Concept con l’SDK Gemini, che un agente può interagire con filesystem e funzioni Python; l’identificazione di vulnerabilità concrete come il path traversal, che consente l’accesso a file sensibili; e la necessità di difese multilivello che combinano codice robusto, prompt controllati e guardrail API. AgID sottolinea che la sicurezza non risiede nell’intelligenza del modello, ma nella qualità del codice circostante, nelle validazioni input e nelle architetture che regolano l’autonomia dell’agente. Il documento ribadisce l’importanza di una governance consapevole, capace di bilanciare autonomia operativa e controllo umano in ecosistemi digitali complessi.
Cosa leggere
Dal linguaggio al codice negli agenti IA
AgID mostra come gli agenti IA traducano comandi naturali in azioni concrete tramite Function Calling. Gli sviluppatori definiscono funzioni Python corredate da docstring, che l’SDK Gemini converte in schemi JSON. L’agente valuta la richiesta dell’utente, sceglie il tool più adatto e genera un messaggio JSON strutturato per richiamare la funzione corrispondente. Il processo segue un ciclo ReAct, dove il modello prima ragiona e poi agisce. Un esempio è la funzione leggi_file(nome), che forsnisce il contenuto del file richiesto. Questo meccanismo trasforma l’agente in un orchestratore: la precisione del suo comportamento dipende non dal modello, ma dalla solidità del codice che esegue le funzioni. AgID evidenzia come gli agenti operino in ambienti controllati come ./sandbox, ma avverte che errori nelle docstring o parametri insufficientemente validati possono creare vulnerabilità. L’agente interpreta fedelmente ogni istruzione, rendendo critico testare il codice in ambienti isolati. AgID mostra come l’agente possa elencare tool disponibili, rivelando punti deboli. Questa capacità aumenta la versatilità dell’agente, ma solleva questioni etiche e operative legate alla sicurezza.
L’agente IA come osservatore del sistema
AgID approfondisce il ruolo degli agenti IA come specchi del sistema, capaci di esporre dettagli tecnici tramite la semplice lettura delle docstring. L’agente, rispondendo a interrogazioni sulle funzioni disponibili, elenca tool come lista_file() o cancella_file(nome). Questo comportamento, utile in sviluppo e debugging, diventa rischioso in ambienti pubblici, perché consente a utenti malintenzionati di individuare vulnerabilità o funzioni pericolose. AgID dimostra come l’agente possa identificare rischi, come cancellazione accidentale di file o accessi non autorizzati, senza però correggere gli errori del codice. Di conseguenza, gli sviluppatori devono introdurre restrizioni per limitare interrogazioni invasive. L’agente rafforza i processi di audit, ma aumenta il rischio di exploit se utilizzato senza controlli. AgID integra filtri per impedire risposte su struttura interna e incoraggia le organizzazioni a sfruttare questa capacità analitica in fasi protette del ciclo di sviluppo.
Rischi path traversal negli agenti IA
AgID evidenzia il rischio critico del path traversal, uno dei punti centrali del PoC. Sebbene l’agente operi teoricamente dentro ./sandbox, una query come “leggi ../.env” consente l’accesso a file al di fuori della directory, esponendo variabili sensibili come API_KEY_GEMINI. L’agente esegue la funzione senza validare percorsi, mostrando come il problema non sia il modello, ma la mancanza di validazioni nel codice. AgID raccomanda l’uso di os.path.abspath, controlli su directory consentite, logging avanzato, permessi file restrittivi e isolamento tramite chroot per mitigare fughe di dati. Test mirati simulano attacchi reali e rivelano complessità nascoste in sistemi che sembrano semplici. Il documento osserva che il path traversal si amplifica nei contesti cloud ibridi e in sistemi che integrano API esterne, richiedendo revisioni continue del codice.
Strategie di difesa a strati per agenti IA
AgID propone una difesa multilivello. Il primo strato è il codice, che deve implementare validazioni input rigorose e confinare azioni in sandbox controllate. Il secondo strato è il system prompt, che definisce limiti etici e operativi dell’agente, guidandolo a rifiutare azioni potenzialmente dannose. Il terzo strato è costituito dai guardrail API, che filtrano input e output, intercettando richieste anomale tramite meccanismi come Action Review. Questi tre strati creano ridondanza e prevengono escalation di errori. AgID suggerisce anche l’adozione di modelli per la detection anomalie, filtri anti-prompt-injection, simulazioni di attacco e audit ricorrenti. Le organizzazioni aggiornano prompt e policy per adattarsi a evoluzioni del modello. Questo approccio consente di bilanciare innovazione e sicurezza, riducendo la superficie d’attacco in contesti enterprise e pubblici.
Riflessioni sulla sicurezza degli agenti IA
AgID sottolinea che la progettazione della sicurezza deve precedere l’implementazione di agenti IA. Anche modelli intelligenti falliscono se la base di codice è fragile. La prevenzione diventa il punto cardine: test di vulnerabilità, revisioni del codice e controlli nei processi di function calling devono essere integrati sin dall’inizio. L’organizzazione invita a bilanciare autonomia e tracciabilità, mantenendo un controllo umano costante sulle azioni compiute dagli agenti. Le riflessioni toccano anche aspetti etici: l’IA non sostituisce l’umano, ma ne potenzia capacità e responsabilità. AgID richiama l’esigenza di framework etici e governance robusta per evitare abusi e violazioni. Le organizzazioni sono incoraggiate a formare team su minacce emergenti e a condividere best practices tra agenzie. La complessità del sistema richiede approcci proattivi e coordinati.
Conclusioni sulla governance degli agenti IA
AgID conclude che gli agenti IA potenziano i sistemi digitali, ma richiedono una governance pragmatica e multilivello. Ogni funzione delegata a un agente aumenta potenza e rischio: la sicurezza dipende dalla qualità dell’infrastruttura che lo sostiene. Il PoC rivela che le vulnerabilità derivano dal codice e non dal modello, rendendo essenziale una strategia di prevenzione. Il framework AgID fornisce una roadmap operativa per implementare agenti IA sicuri, promuovendo fiducia, controllo e consapevolezza nell’adozione dell’automazione intelligente.