Chatbot contro Chatbot: intelligenze artificiali si hackerano da sole -

Tempo di lettura: < 1 minuto.

Nel mondo dell’intelligenza artificiale, i chatbot sono generalmente dotati di meccanismi di sicurezza per prevenire utilizzi malevoli, come il divieto di certe parole o la limitazione nelle risposte a determinate domande. Tuttavia, una recente ricerca condotta dall’Università Tecnologica di Nanyang (NTU) a Singapore ha portato a una svolta significativa: l’addestramento di chatbot AI per aggirare queste difese e generare risposte potenzialmente dannose.

Sfondare le Barriere: Il Metodo ‘Masterkey’

Il team di ricerca, guidato dal Professor Liu Yang e dai dottorandi Deng Gelei e Liu Yi, ha sviluppato un metodo, denominato ‘Masterkey’, che dimostra un’efficacia tre volte superiore rispetto ai metodi standard di prompt dei grandi modelli di linguaggio (LLM). Questo metodo si basa su due fasi: identificare prima le salvaguardie di un chatbot e poi addestrare un altro chatbot a superarle, generando contenuti nocivi.

Adattabilità e Apprendimento: La Forza degli LLM

Una caratteristica fondamentale degli LLM utilizzati nei chatbot è la loro capacità di apprendere e adattarsi. Masterkey incarna questa qualità, essendo in grado di adattarsi e superare eventuali aggiornamenti di sicurezza che mirano a bloccare i suoi metodi di bypass. Tra le tecniche intuitive impiegate vi sono l’aggiunta di spazi aggiuntivi tra le parole per eludere l’elenco di parole vietate o istruire il chatbot a rispondere come se avesse una personalità priva di restrizioni morali.

Etica e Sicurezza nell’Intelligenza Artificiale

Questo sviluppo solleva importanti questioni etiche riguardanti l’uso dei grandi modelli di linguaggio nell’IA. Mentre la ricerca apre nuove frontiere nella comprensione e nell’impiego dell’intelligenza artificiale, pone anche sfide significative in termini di sicurezza e responsabilità nell’uso di queste tecnologie.

Sfondare le Barriere: Il Metodo ‘Masterkey’

Adattabilità e Apprendimento: La Forza degli LLM

Etica e Sicurezza nell’Intelligenza Artificiale

Pronto a supportare l'informazione libera?