Meta: meno errori di moderazione, più trasparenza su minacce e dati governativi

Meta ha pubblicato i report di integrità relativi al primo trimestre 2025, fornendo una panoramica dettagliata sull’applicazione delle regole comunitarie, la gestione dei contenuti problematici, le richieste governative di dati, e l’uso avanzato dell’intelligenza artificiale nella moderazione. I dati confermano l’impatto delle modifiche introdotte a inizio anno: meno errori nei ban, più attenzione ai contenuti gravi e un rafforzamento degli strumenti proattivi per proteggere soprattutto gli utenti più giovani.

Cosa leggere

Moderazione più precisa: errori dimezzati negli Stati Uniti

Tra Q4 2024 e Q1 2025, Meta ha dimezzato gli errori di rimozione nei contenuti pubblicati dagli utenti statunitensi. Il miglioramento è stato ottenuto grazie a tre azioni principali: disattivazione di sistemi automatici troppo severi, uso di segnali addizionali per l’identificazione di violazioni e introduzione di soglie più elevate per la rimozione automatica. Di conseguenza, si è ridotto anche il numero di contenuti segnalati e successivamente ripristinati.

Nonostante il cambio di approccio, la prevalenza dei contenuti problematici è rimasta stabile, ad eccezione di lievi aumenti in due aree: bullismo/harassment (0,07-0,08% su Facebook) e contenuti violenti/grafici (0,09%). Le variazioni sono state attribuite sia a picchi temporanei sia alla riduzione delle rimozioni erronee.

Teenager e sicurezza: enforcement differenziato

Meta continua a gestire i contenuti rivolti agli adolescenti in modo più restrittivo. Oltre a intervenire in modo proattivo sui contenuti più pericolosi, la piattaforma oscura preventivamente contenuti potenzialmente nocivi, come episodi di bullismo, anche se non esplicitamente segnalati.

Minacce organizzate: attività smascherate in Iran, Cina e Romania

Il report sulle minacce avversarie segnala la rimozione di tre campagne coordinate provenienti da Iran, Cina e Romania. Queste operazioni puntavano a influenzare l’opinione pubblica, ma sono state neutralizzate prima di raggiungere un pubblico esteso. Meta ha confermato di potenziare i sistemi di rilevamento precoce, con un focus particolare sulle campagne disinformative in fase embrionale.

Dati governativi: India al primo posto, USA in calo

Nel secondo semestre 2024, le richieste governative di dati utenti sono diminuite globalmente dello 0,5%. L’India è il principale richiedente con un aumento del 3,8%, seguita da Stati Uniti, Brasile e Germania. Le richieste USA sono calate dell’8,8%, ma includono ancora il 76,6% di casi con ordini di segretezza che impediscono l’informazione agli utenti.

Censura locale: crollano i numeri globali grazie all’Indonesia

I contenuti rimossi su base legale sono scesi da 148 milioni (H1 2024) a 84,6 milioni (H2 2024). Il calo si concentra principalmente sull’Indonesia, dove si sono ridotti gli obblighi automatici di rimozione legati a contenuti di gioco d’azzardo. Per la prima volta, Meta include anche i dati relativi a Threads, estendendo la trasparenza a tutte le sue piattaforme principali.

LLM e IA nella moderazione: prestazioni oltre il livello umano in alcune aree

Meta ha introdotto Large Language Models (LLM) come strumenti fondamentali per l’enforcement delle regole comunitarie. Questi modelli, allenati direttamente sugli standard della piattaforma, sono oggi in grado di:

Identificare con maggiore precisione contenuti che violano le policy.
Ridurre il numero di contenuti errati nel flusso di revisione manuale.
Superare in alcune policy i livelli di accuratezza umana.

Gli LLM vengono già impiegati per filtrare automaticamente contenuti sicuri, liberando risorse per i revisori umani che si possono concentrare sui casi più complessi. L’obiettivo dichiarato è scalare l’intervento contro contenuti gravi, come violenza, odio e disinformazione strutturata, riducendo al tempo stesso i falsi positivi.

Community Notes: attivo il test su Facebook, Instagram e Threads

Nel primo trimestre 2025 Meta ha avviato negli Stati Uniti il test di Community Notes, un sistema che consente agli utenti di aggiungere contesto ai post potenzialmente fuorvianti. Le note vengono scritte e valutate da altri utenti, e – se ritenute utili – vengono pubblicate pubblicamente.

Dal lancio iniziale, il sistema è stato esteso anche a Reels e risposte su Threads. Inoltre, ora è possibile richiedere l’aggiunta di una nota direttamente tramite il flusso di segnalazione contenuti. L’iniziativa si ispira a sistemi simili già attivi su X (ex Twitter), ma Meta punta a una moderazione collaborativa trasparente e multilivello.

Meta adotta un paradigma adattivo per la moderazione globale

Il report Q1 2025 conferma la transizione di Meta verso un modello ibrido di enforcement: meno centralizzato, più adattivo e tecnologicamente avanzato. L’integrazione dei LLM consente una gestione automatica intelligente del rischio, mentre l’apertura alle Community Notes estende il controllo qualitativo alla base utenti. Sul piano geopolitico, il rafforzamento delle difese contro le campagne avversarie e l’aumento della trasparenza sui dati governativi dimostrano l’intento di Meta di costruire credibilità anche in scenari normativi sempre più complessi. La riduzione sistematica degli errori di moderazione e la disaggregazione dei dati per area tematica offrono agli osservatori esterni indicatori concreti di accountability per il futuro della moderazione online.