Intelligenza Artificiale
OpenAI aiuta a scoprire immagini ed audio AI
Tempo di lettura: 2 minuti. Scopri come OpenAI sta avanzando nella tecnologia di rilevamento delle immagini e nel watermarking audio per garantire la trasparenza
OpenAI ha annunciato l’introduzione di nuovi strumenti per rilevare se immagini o tracce audio sono state generate dalla sua Intelligenza artificiale, DALL-E, e ha introdotto nuovi metodi di watermarking per contrassegnare più chiaramente i contenuti generati dall’IA.
Dettagli degli strumenti
Classificatore di Immagini: OpenAI ha sviluppato un classificatore che utilizza l’IA per determinare se una foto è stata generata dall’IA. Questo strumento predice la probabilità che un’immagine sia stata creata da DALL-E 3 con una precisione del 98%, anche se l’immagine è stata ritagliata, compressa o modificata nella saturazione.
Watermarking Audio: Insieme al classificatore, OpenAI ha introdotto un watermark resistente alle manomissioni che può etichettare contenuti audio con segnali invisibili. Questo è particolarmente utile per tracciare l’autenticità dei contenuti audio generati.
Prestazioni e Limitazioni: Mentre il classificatore funziona bene con le immagini generate da DALL-E 3, la sua efficacia nel rilevare immagini prodotte da altri modelli di IA è inferiore, riuscendo a identificare solo tra il 5 e il 10% delle immagini generate da altre piattaforme come Midjourney.
Implementazione di Watermarking
OpenAI ha già implementato i “content credentials” nei metadati delle immagini attraverso la Coalition of Content Provenance and Authority (C2PA), di cui fanno parte anche Microsoft e Adobe. Questo mese, OpenAI si è anche unita al comitato direttivo della C2PA, rafforzando il suo impegno nel fornire trasparenza sulla provenienza dei contenuti AI.
Progetti Futuri e Feedback: I nuovi watermark audio sono già stati aggiunti ai clip prodotti da Voice Engine, la piattaforma di sintesi vocale di OpenAI. Tuttavia, sia il classificatore di immagini sia il watermarking audio sono ancora in fase di perfezionamento e OpenAI sta cercando feedback dagli utenti per testarne l’efficacia.
Contesto Storico: OpenAI ha una lunga storia nello sviluppo di strumenti per il rilevamento di contenuti generati dall’IA, sebbene nel 2023 abbia terminato un programma per l’identificazione di testi scritti dall’IA a causa della bassa accuratezza del classificatore di testi.
Implicazioni
Questi sviluppi non solo aiutano a mantenere l’integrità e la trasparenza nell’uso delle tecnologie di generazione di contenuti IA, immagini ed audio, ma forniscono anche strumenti essenziali per gli utenti e i creatori di contenuti per verificare l’autenticità e la provenienza dei materiali che consumano o producono. Questi strumenti rappresentano un passo significativo verso un maggiore controllo e comprensione dei contenuti generati dall’IA, cruciali in un’era dove la distinzione tra contenuto reale e sintetico diventa sempre più sfumata.
Intelligenza Artificiale
Perché l’analisi del sentiment necessita di rilevare il sarcasmo?
Tempo di lettura: 2 minuti. Scopri come un nuovo algoritmo multimodale sviluppato dall’Università di Groningen migliora il rilevamento del sarcasmo, integrando analisi del testo, riconoscimento delle emozioni e emoticon.
Oscar Wilde una volta disse che il sarcasmo è la forma più bassa di spirito, ma la più alta forma di intelligenza; nessun algoritmo però vi è arrivato a riconoscerlo. Questa affermazione riflette la complessità nell’uso e nella comprensione del sarcasmo, noto per essere difficile da trasmettere correttamente anche di persona, e ancor più tramite testo. Le sottili variazioni di tono che indicano il sarcasmo possono facilmente confondere sia gli esseri umani che gli algoritmi informatici, limitando l’efficacia degli assistenti virtuali e degli strumenti di analisi dei contenuti.
Nuovo approccio multimodale per il rilevamento del sarcasmo
Xiyuan Gao, Shekhar Nayak e Matt Coler del Laboratorio di Tecnologia del Parlato presso l’Università di Groningen, Campus Fryslân, hanno sviluppato un algoritmo multimodale per migliorare il rilevamento del sarcasmo, analizzando vari aspetti delle registrazioni audio per aumentare la precisione. Gao ha presentato il loro lavoro il 16 maggio 2024, come parte di una riunione congiunta della Società Acustica d’America e dell’Associazione Acustica Canadese.
Caratteristiche dell’algoritmo
L’algoritmo si basa su due approcci complementari: l’analisi del sentimento utilizzando il testo e il riconoscimento delle emozioni tramite l’audio. Questo metodo integrato permette di ottenere una visione più completa del sarcasmo espresso nel parlato umano.
- Parametri acustici: Il team ha estratto parametri come tono, velocità del parlato ed energia dal discorso.
- Trascrizione del parlato: Utilizzando il riconoscimento automatico del parlato, il discorso è stato trascritto in testo per l’analisi del sentimento.
- Integrazione degli emoticon: Ad ogni segmento del discorso sono stati assegnati emoticon che riflettono il contenuto emotivo.
Combinando questi segnali multimodali in un algoritmo di machine learning, l’approccio sfrutta i punti di forza delle informazioni uditive e testuali insieme agli emoticon per un’analisi completa.Fonte: Acoustics.org
Potenziali miglioramenti e applicazioni future
Il team è ottimista riguardo alle prestazioni dell’algoritmo, ma sta già cercando modi per migliorarlo ulteriormente. Gao ha sottolineato l’importanza di integrare meglio le espressioni e i gesti che evidenziano gli elementi sarcastici nel parlato e l’obiettivo di includere più lingue e adottare tecniche emergenti di riconoscimento del sarcasmo.
Questo approccio può essere utilizzato non solo per identificare il sarcasmo, ma anche in molti altri campi:
- Analisi del sentiment: Tradizionalmente focalizzata sul testo, può beneficiare del riconoscimento del sarcasmo per applicazioni come la rilevazione di discorsi di odio online e l’estrazione delle opinioni dei clienti.
- Riconoscimento delle emozioni: Basato sul parlato, può essere applicato all’assistenza sanitaria assistita dall’intelligenza artificiale.
Intelligenza Artificiale
Android 15 integra Gemini AI: nuove funzionalità e miglioramenti
Tempo di lettura: 2 minuti. Google integra Gemini AI in Android 15, con nuove funzionalità di ricerca, assistente contestuale e miglioramenti on-device per privacy e efficienza
Google ha annunciato una serie di nuove funzionalità AI integrate nel sistema operativo Android 15, offrendo uno sguardo su cosa dovrà competere il sistema operativo dell’iPhone di Apple entro la fine dell’anno. Android 15 è stato progettato con l’IA al suo centro, e Gemini rappresenta una parte fondamentale dell’esperienza Android a livello di sistema.
Caratteristiche principali di Gemini AI su Android 15
Barra di ricerca AI e Circle to Search
Una delle nuove funzionalità è una barra di ricerca alimentata dall’IA che può essere utilizzata per rispondere a domande e cercare informazioni. La funzione Circle to Search permette di risolvere problemi di matematica e fisica o di ottenere aiuto con i compiti.
Assistente AI contestuale
Gemini serve come assistente AI su Android, sostituendo Google Assistant. Questo assistente può essere richiamato come overlay su qualsiasi app in uso, offrendo supporto contestuale in tempo reale. Può creare immagini per testi e social media, rispondere a domande su video in riproduzione, interpretare PDF, siti web e altri contenuti, fornendo riassunti e traduzioni.
Privacy e elaborazione on-device
Google utilizza l’IA on-device per alcune funzionalità al fine di mantenere i dati sensibili privati, simile alla strategia di Apple. Gemini Nano, l’IA on-device di Google, genera risposte intelligenti nelle app di messaggistica e riassume memo vocali. Gemini Nano con Multimodalità arriverà sui telefoni Pixel entro la fine dell’anno, introducendo nuove funzionalità come TalkBack per aiutare utenti ciechi e ipovedenti a interpretare meglio il mondo circostante. Un’altra funzione in sviluppo è lo screening delle chiamate, che ascolta attivamente le chiamate e avvisa gli utenti se sembrano truffe.
Modelli Gemini 1.5 Flash e Pro
Google ha anche annunciato Gemini 1.5 Flash, una versione leggera del modello AI Gemini Pro. Gemini Flash è più efficiente, meno costoso e ha una latenza inferiore, ideale per distribuzioni su larga scala. Questo modello eccelle in riassunti, applicazioni di chat, didascalie di immagini e video, e estrazione di dati da documenti lunghi.
Gemini 1.5 Pro è stato migliorato e può seguire istruzioni sempre più complesse e sfumate, inclusa l’interpretazione di documenti fino a 1.500 pagine o un’ora di contenuti video. Gli utenti possono interagire con Gemini in Google Messages, e gli abbonati a Gemini Advanced possono sperimentare una nuova esperienza conversazionale mobile.
Project Astra
Project Astra è un altro sforzo di Google che si concentra su agenti AI utili nella vita quotidiana. Durante una demo, Google ha mostrato prototipi di agenti in grado di identificare oggetti, fornire contesto sulle informazioni dalla fotocamera e richiamare una sequenza temporale di eventi per trovare un oggetto perso.
Prossimi annunci
Google fornirà ulteriori informazioni sulle nuove funzionalità in arrivo su Android 15 entro questa settimana.
Intelligenza Artificiale
Perchè Google ha chiamato la sua AI “Gemini”?
Tempo di lettura: 2 minuti. Google spiega l’origine del nome “Gemini” per le sue funzionalità AI, ispirato alla mitologia greca, alla costellazione dei Gemelli e al Project Gemini della NASA.
Dal Google I/O 2023, “Gemini” è diventato il nome che raggruppa tutte le funzionalità AI di Google. Questa settimana, Google ha ufficialmente spiegato l’origine del nome.
Origini e significato del nome “Gemini”
Inizialmente, il progetto aveva il nome provvisorio “Titan”, ispirato alla mitologia greca e alla luna più grande di Saturno. Tuttavia, Jeff Dean, co-leader tecnico di Gemini, non era un grande fan di questo nome, ma esso gli ha dato l’idea di un nome legato allo spazio.
Così, Google ha scelto “Gemini”, che in latino significa “gemelli”. In astronomia, Gemelli è una costellazione associata ai gemelli mitologici greci Castore e Polluce, i cui nomi sono stati dati alle sue due stelle più brillanti. Questo significato duplice si adattava perfettamente al modello AI di Google.
Il team di Google ha trovato che la personalità duale del segno zodiacale dei Gemelli, capace di adattarsi rapidamente, connettersi con un’ampia gamma di persone e vedere le cose da molteplici prospettive, fosse ideale per il momento in cui Google stava unendo i team di DeepMind e Google Research “Brain”.
L’importanza della collaborazione tra i team
Jeff Dean ha spiegato che lo sforzo di Gemini è nato dal desiderio di avvicinare i team che lavoravano sulla modellazione del linguaggio. La metafora dei gemelli rappresentava bene questa fusione: i membri del team legacy di Brain e di DeepMind hanno iniziato a lavorare insieme su questo ambizioso progetto multimodale.
Riferimento al Project Gemini della NASA
Il nome “Gemini” è anche un omaggio al Project Gemini della NASA, attivo dal 1965 al 1968, che ha testato tecnologie cruciali per il successo del programma Apollo. Oriol Vinyals, co-leader tecnico, ha trovato che l’enorme sforzo richiesto per l’addestramento dei modelli linguistici di grandi dimensioni risuonava con lo spirito dei lanci di razzi del Project Gemini.
Evoluzione e denominazione dei modelli
Google ha anche considerato di dare ai modelli nomi di stelle, ma attualmente i nomi utilizzati sono Nano, Flash, Pro e Ultra. L’intervista ha rivelato che la decisione di utilizzare “Gemini” anche come nome per le funzionalità AI visibili agli utenti è stata presa per trasmettere il continuo miglioramento, la creatività e l’innovazione che i team di ricerca di Google porteranno direttamente agli utenti.
- Robotica1 settimana fa
Come controllare dei Robot morbidi ? MIT ha un’idea geniale
- Inchieste6 giorni fa
Melinda lascia la Bill Gates Foundation e ritira 12,5 Miliardi di Dollari
- L'Altra Bolla6 giorni fa
Discord celebra il nono compleanno con aggiornamenti e Giveaway
- Inchieste5 giorni fa
Terrore in Campania: dati sanitari di SynLab nel dark web
- Economia1 settimana fa
Ban in Germania per alcuni prodotti Motorola e Lenovo
- Smartphone3 giorni fa
Samsung Galaxy S25 Ultra: Quattro fotocamere in Arrivo
- Smartphone6 giorni fa
Samsung Galaxy S25 Ultra avrà una Fotocamera rispetto all’S24
- Economia6 giorni fa
Cy4Gate: accordo da un milione con Innovery