Categorie
Sicurezza Informatica

Google rende Open Source il Magika per l’identificazione dei File

Tempo di lettura: 3 minuti. Google rende open source Magika, uno strumento AI per l’identificazione dei file, unendo cybersecurity alle capacità del machine learning.

Tempo di lettura: 3 minuti.

Google ha recentemente reso open source Magika, uno strumento di identificazione dei file alimentato da machine learning, come parte della sua Iniziativa per la Difesa Cyber AI. Questa mossa mira a fornire agli addetti alla sicurezza informatica e ad altri professionisti del settore strumenti automatizzati più efficaci.

Sfide nell’Identificazione dei File

Determinare il vero contenuto di un file inviato da un utente può essere più complicato di quanto sembri. Non è sicuro affidarsi solo all’estensione del file e fare affidamento su euristiche e regole create manualmente per identificare la natura effettiva di un documento dai suoi dati è, secondo Google, un processo “laborioso e soggetto a errori”.

Introduzione di Magika

Per affrontare questa sfida, Google ha introdotto Magika, che utilizza un modello addestrato per identificare rapidamente i tipi di file dai dati del file. Questo strumento è già utilizzato da servizi come Gmail, Google Drive, la Safe Browsing di Chrome e VirusTotal per identificare correttamente i dati e instradarli per ulteriori elaborazioni.

Potenziali applicazioni

Magika potrebbe essere particolarmente utile per i difensori della rete per identificare rapidamente e su larga scala il vero contenuto dei file, un passo fondamentale nell’analisi dei malware e nel rilevamento delle intrusioni. Questo modello di deep learning potrebbe essere utile anche per chiunque debba esaminare documenti forniti dagli utenti, ad esempio, per distinguere tra video che sono in realtà eseguibili, che dovrebbero suscitare allarmi e richiedere un’ispezione più approfondita.

Prestazioni e Disponibilità

Google sostiene che Magika sia il 50% più accurato nell’identificazione dei tipi di file rispetto al sistema precedente basato su regole manuali, richiedendo solo millisecondi per identificare un tipo di file e raggiungendo una precisione di almeno il 99% nei test. Tuttavia, il modello non è perfetto e non riesce a classificare i tipi di file circa il 3% delle volte. Magika è rilasciato sotto licenza Apache 2.0, e il codice è disponibile su GitHub.

Iniziativa per la Difesa Cyber AI di Google

Oltre a Magika, Google collaborerà con 17 startup nel Regno Unito, negli Stati Uniti e in Europa come parte della sua Iniziativa per la Difesa Cyber AI, addestrandole all’uso di questi strumenti automatizzati per migliorare la loro sicurezza. Espanderà inoltre il suo Programma di Seminari sulla Sicurezza Informatica da 15 milioni di dollari per aiutare le università a formare più studenti europei in materia di sicurezza e ha impegnato 2 milioni di dollari in sovvenzioni per finanziare la ricerca in cyber-offesa e modelli di linguaggio di grandi dimensioni per supportare gli accademici dell’Università di Chicago, Carnegie Mellon e Stanford.

Cos’è Magika?

Google ha recentemente annunciato l’open-sourcing di Magika, un sistema di identificazione dei tipi di file alimentato da intelligenza artificiale, per aiutare a identificare con precisione i tipi di file binari e testuali. Magika utilizza un modello di deep learning personalizzato e altamente ottimizzato, che consente un’identificazione precisa dei file in millisecondi, anche su CPU.

Perché l’identificazione del tipo di file è difficile?

L’identificazione accurata dei tipi di file è cruciale per determinare come elaborare i file. Linux è dotato di libmagic e dell’utilità file, che sono stati lo standard de facto per l’identificazione dei tipi di file per oltre 50 anni. Tuttavia, l’identificazione accurata dei tipi di file è notoriamente difficile, poiché ogni formato di file ha una struttura diversa, o nessuna struttura affatto.

Prestazioni di Magika

Magika, grazie al suo modello AI e a un ampio set di dati di addestramento, è in grado di superare di circa il 20% altri strumenti esistenti quando valutato su un benchmark di 1 milione di file che comprende oltre 100 tipi di file. Le prestazioni sono ancora maggiori sui file testuali, inclusi i file di codice e i file di configurazione.

Magika in Google

Internamente, Magika è utilizzato su larga scala per migliorare la sicurezza degli utenti Google, instradando i file di Gmail, Drive e Safe Browsing verso gli scanner di sicurezza e politiche di contenuto appropriati. Magika migliora l’accuratezza dell’identificazione dei tipi di file del 50% rispetto al sistema precedente basato su regole manuali.

Open Sourcing di Magika

Rendendo Magika open source, Google mira ad aiutare altri software a migliorare la loro accuratezza nell’identificazione dei file e offre ai ricercatori un metodo affidabile per identificare i tipi di file su larga scala. Il codice e il modello di Magika sono disponibili gratuitamente su GitHub sotto la licenza Apache2 e possono essere installati rapidamente come utility standalone e libreria Python tramite il gestore di pacchetti pypi.

L’apertura di Magika al mondo attraverso l’open source evidenzia il potenziale dell’intelligenza artificiale nel risolvere sfide secolari nel campo della sicurezza informatica, avvicinandoci a un mondo digitale sicuro, protetto e affidabile come auspicato da Google.

Pronto a supportare l'informazione libera?

Iscriviti alla nostra newsletter // Seguici gratuitamente su Google News
Exit mobile version