Allarme AI: aumentano del 32% le "iniezioni indirette" di prompt per manipolare gli agenti web -

Google registra un aumento del 32% delle iniezioni indirette di prompt (IPI) sul web pubblico tra novembre 2025 e febbraio 2026, evidenziando una crescita concreta delle minacce contro gli agenti AI autonomi. Il fenomeno emerge dalle analisi congiunte di Google DeepMind e Google Threat Intelligence Group, che monitorano come contenuti web manipolati possano influenzare il comportamento dei modelli. Gli IPI permettono agli attaccanti di inserire istruzioni malevole in pagine pubbliche, sfruttando la fiducia degli agenti nei dati non strutturati. Il rischio cresce insieme alla diffusione degli agenti intelligenti.

Cosa leggere

Google analizza le iniezioni indirette di prompt nel web pubblico

Le iniezioni indirette di prompt si verificano quando un agente AI elabora contenuti contaminati presenti su siti web, email o documenti e interpreta istruzioni nascoste come comandi validi. A differenza delle iniezioni dirette, queste tecniche non richiedono interazione esplicita con l’utente e sfruttano la capacità degli agenti di leggere e sintetizzare informazioni. Gli attaccanti inseriscono prompt malevoli nel codice HTML o nel testo visibile, inducendo il modello a deviare dal compito originale. Questo comportamento rappresenta una minaccia crescente soprattutto per agenti autonomi che operano senza supervisione continua.

Google utilizza Common Crawl e Gemini per il monitoraggio su larga scala

Annuncio

Per identificare il fenomeno, Google analizza snapshot mensili di Common Crawl, che comprendono tra 2 e 3 miliardi di pagine web in lingua inglese. Il processo parte da pattern noti come “ignore previous instructions” o “if you are an AI”, utilizzati per individuare possibili tentativi di manipolazione. Successivamente interviene Gemini, che classifica il contesto e verifica la coerenza delle istruzioni rispetto al contenuto della pagina. Una revisione manuale elimina i falsi positivi legati a contenuti educativi o discussioni tecniche. Questo approccio consente una scansione efficace su scala globale mantenendo un buon livello di precisione.

Le categorie di iniezioni indirette mostrano un ecosistema ancora sperimentale

L’analisi identifica cinque categorie principali di IPI. Le prime includono prank innocui che modificano il comportamento dell’agente, seguite da prompt utili che migliorano riassunti o contesto informativo. Una terza categoria riguarda l’ottimizzazione per motori di ricerca basati su AI, mentre una quarta tenta di ostacolare l’attività degli agenti con flussi di testo o istruzioni di blocco. Solo l’ultima categoria presenta intenti chiaramente malevoli. La maggior parte delle iniezioni osservate resta sperimentale e non aggressiva, segno che il fenomeno è ancora in fase iniziale ma in rapida evoluzione.

I tentativi malevoli restano limitati ma indicano scenari critici

Le iniezioni con finalità dannose rappresentano una minoranza ma mostrano potenziali impatti elevati. Alcuni prompt tentano di esfiltrare dati sensibili, mentre altri cercano di eseguire comandi distruttivi sul sistema dell’utente. In diversi casi compaiono istruzioni per cancellare file o accedere a risorse locali. Tuttavia, la maggior parte di questi tentativi fallisce a causa delle protezioni integrate nei modelli AI. La sofisticazione degli attacchi rimane relativamente bassa, suggerendo che gli attori di minaccia stanno ancora sperimentando il vettore senza averlo industrializzato.

Il trend di crescita riflette l’evoluzione degli agenti AI

L’aumento del 32% nelle rilevazioni malevole indica una crescita significativa del fenomeno in un arco temporale breve. Questo incremento è legato alla maggiore diffusione degli agenti AI e alla riduzione dei costi operativi per gli attaccanti. Con modelli sempre più potenti e integrati nei flussi quotidiani, il valore delle IPI aumenta. Gli attori malevoli iniziano a considerare questo vettore come un’opzione concreta per operazioni future. La traiettoria suggerisce un’espansione sia in termini di volume sia di complessità delle tecniche utilizzate.

Le implicazioni per aziende e utenti evidenziano nuovi rischi operativi

Allarme AI: aumentano del 32% le "iniezioni indirette" di prompt per manipolare gli agenti web 4

Le iniezioni indirette di prompt rappresentano una minaccia diretta per organizzazioni e utenti che utilizzano agenti AI. Un agente compromesso può divulgare informazioni riservate, manipolare processi decisionali o eseguire azioni non autorizzate. Le aziende che integrano automazioni intelligenti nei propri sistemi rischiano esposizioni di dati e interruzioni operative. Anche gli utenti individuali possono subire conseguenze quando strumenti AI elaborano contenuti web non sicuri. Il rischio attuale è limitato ma destinato a crescere con l’adozione sempre più ampia degli agenti autonomi.

Google sviluppa difese multilivello contro le iniezioni indirette

Per contrastare il fenomeno, Google implementa strategie di difesa basate su più livelli. Il red teaming sui modelli Gemini consente di testare la resistenza contro nuovi vettori di attacco. Il programma AI Vulnerability Reward Program incentiva la scoperta di vulnerabilità da parte di ricercatori esterni. L’azienda integra filtri avanzati e sistemi di classificazione contestuale per bloccare comportamenti anomali. Inoltre, servizi come Google Workspace adottano misure specifiche contro le IPI. Questo approccio combinato mira a contenere una minaccia destinata a crescere insieme all’ecosistema AI.

Il fenomeno IPI segna il passaggio da teoria a rischio concreto

L’analisi di Google conferma che le iniezioni indirette di prompt non sono più un concetto teorico ma una minaccia reale nel panorama cyber. La combinazione tra agenti autonomi, contenuti web non controllati e capacità avanzate dei modelli crea un ambiente favorevole agli attacchi. Il caso dimostra come l’evoluzione dell’intelligenza artificiale introduca nuove superfici di rischio che richiedono approcci di sicurezza aggiornati. Le organizzazioni devono adattarsi rapidamente per evitare che un vettore ancora sperimentale diventi un problema sistemico.

Iscriviti alla Newsletter

Non perdere le analisi settimanali: Entra nella Matrice Digitale.

Matrice Digitale partecipa al Programma Affiliazione Amazon EU. In qualità di Affiliato Amazon, ricevo un guadagno dagli acquisti idonei. Questo non influenza i prezzi per te.