LAION-5B, CSAM nel dataset di intelligenza artificiale -

Tempo di lettura: 3 minuti.

Più di 1.000 materiali noti di abuso sessuale su minori (CSAM) sono stati trovati in un ampio dataset aperto, noto come LAION-5B, utilizzato per addestrare popolari generatori di immagini basati su testo, come Stable Diffusion. La scoperta è stata rivelata da David Thiel, ricercatore presso lo Stanford Internet Observatory (SIO).

Dettagli della Scoperta

Origine del Problema

Thiel ha iniziato la sua ricerca a settembre, dopo aver scoperto a giugno che i generatori di immagini AI venivano utilizzati per creare migliaia di false ma realistiche immagini di abuso sessuale su minori, che si diffondevano rapidamente sul dark web. L’obiettivo era scoprire quale ruolo il CSAM potrebbe avere nel processo di addestramento dei modelli AI che alimentano questi generatori di immagini illecite.

Contenuto del Dataset

Il dataset LAION-5B includeva CSAM noti, raccolti da una vasta gamma di fonti, tra cui siti di social media mainstream come Reddit, X, WordPress e Blogspot, nonché siti di video per adulti popolari come XHamster e XVideos.

Reazioni e Misure Adottate

Rimozione dei Dataset

In seguito alla pubblicazione del rapporto di Thiel, un portavoce di LAION, l’organizzazione no-profit tedesca che ha prodotto il dataset, ha dichiarato che LAION stava “rimuovendo temporaneamente i dataset LAION da Internet” a causa della loro “politica di tolleranza zero” per i contenuti illegali. I dataset verranno ripubblicati una volta che LAION assicurerà che siano “sicuri”.

Problemi con i Modelli Precedentemente Addestrati

Rimuovere i dataset ora non risolve i problemi residui con i dataset precedentemente scaricati o i modelli precedentemente addestrati, come Stable Diffusion 1.5. Le versioni successive di Stable Diffusion, 2.0 e 2.1, hanno filtrato parte o la maggior parte del contenuto ritenuto “non sicuro”, rendendo difficile generare contenuti espliciti. Tuttavia, a causa dell’insoddisfazione degli utenti per queste versioni più filtrate, Stable Diffusion 1.5 rimane “il modello più popolare per generare immagini esplicite”.

Implicazioni e Soluzioni Proposte

Sottostima del Problema

SIO ha trovato 3.226 casi sospetti di CSAM nel dataset LAION-5B. Il rapporto di Thiel avverte che entrambe le cifre sono “inherentemente una significativa sottostima” a causa della limitata capacità dei ricercatori di rilevare e segnalare tutti i CSAM nei dataset.

Soluzioni Suggerite

Il rapporto SIO suggerisce che la maggior parte di coloro che possiedono set di dati derivati da LAION-5B dovrebbero eliminarli o lavorare con intermediari per pulire il materiale. I modelli basati su Stable Diffusion 1.5 che non hanno avuto misure di sicurezza applicate dovrebbero essere deprecati e la loro distribuzione interrotta dove possibile.

Cos’è LAION-5B?

LAION-5B è un grande dataset di immagini e testi utilizzato per addestrare modelli di intelligenza artificiale (AI), in particolare quelli che generano immagini a partire da descrizioni testuali. Questo dataset è stato creato e reso disponibile dalla Large-scale Artificial Intelligence Open Network (LAION), un’organizzazione no-profit tedesca.

Caratteristiche principali di LAION-5B:

Dimensione e Contenuto: Come suggerisce il nome, LAION-5B contiene circa 5 miliardi di coppie di immagini e testi. Queste coppie sono state raccolte da una varietà di fonti pubbliche su Internet.
Utilizzo nell’Addestramento AI: Il dataset è utilizzato per addestrare modelli di AI, in particolare quelli basati su tecniche di apprendimento profondo, per comprendere e generare immagini basate su input testuali. Questo tipo di addestramento è fondamentale per lo sviluppo di tecnologie come i generatori di immagini basati su testo.
Accessibilità: LAION-5B è un dataset aperto, il che significa che è accessibile a ricercatori e sviluppatori di tutto il mondo. Questa accessibilità ha lo scopo di promuovere la ricerca e lo sviluppo nell’ambito dell’intelligenza artificiale.
Implicazioni Etiche e di Sicurezza: L’uso di dataset ampi e aperti come LAION-5B solleva questioni etiche e di sicurezza, in particolare riguardo alla presenza di contenuti sensibili o inappropriati, come immagini di abuso sessuale su minori, che possono essere inclusi accidentalmente nel dataset.
Importanza per la Ricerca AI: Dataset come LAION-5B sono essenziali per il progresso nel campo dell’intelligenza artificiale, poiché forniscono una vasta quantità di dati necessari per l’addestramento di modelli AI complessi e sofisticati.

In sintesi, LAION-5B è un importante risorsa per la comunità AI, ma la sua gestione e utilizzo richiedono attenzione e responsabilità per garantire che i dati siano utilizzati in modo etico e sicuro.

La scoperta di CSAM nei dataset utilizzati per addestrare i modelli AI di generazione di immagini solleva gravi preoccupazioni sulla sicurezza e l’etica nell’uso di tali tecnologie. La necessità di misure di sicurezza più rigorose e di una maggiore vigilanza nella creazione e gestione di questi dataset è evidente.