Intelligenza Artificiale

La forza e i limiti dei video generati da AI: il caso di Sora di OpenAI

Tempo di lettura: 2 minuti. Scopri i limiti e le potenzialità di Sora di OpenAI nel campo dei video generati da AI, con dettagli su sfide e uso pratico.

Sostieni l'informazione di Matrice Digitale con un click. Seguici su Google News

Pubblicato

3 settimane fa

in data

27/04/2024

Michele Sesti

Tempo di lettura: 2 minuti.

Recentemente, OpenAI ha introdotto Sora, uno strumento di generazione video che ha colpito la comunità dell’intelligenza artificiale con la sua capacità di produrre video fluidi e realistici. Tuttavia, nonostante la presentazione iniziale abbia lasciato intravedere un grande passo avanti, la realtà del suo utilizzo pratico, come rivelato da Patrick Cederberg, un artista di post-produzione che ha avuto accesso anticipato, presenta sfide significative.

I limiti della produzione Video con Sora

Video aerei di carta Sora OpenAI

Il team di produzione Shy Kids, basato a Toronto, ha avuto l’opportunità di creare un cortometraggio utilizzando Sora. Nonostante la libertà creativa concessa, il processo ha rivelato che i video generati da Sora richiedevano un’intensa post-produzione. Contrariamente all’idea che i video emergessero quasi completi dal software, il lavoro dietro le quinte includeva storyboarding robusto, editing, correzione del colore e lavori di post-produzione come il rotoscoping e gli effetti visivi (VFX).

Problemi di controllo e coerenza

Uno dei problemi principali riscontrati durante l’utilizzo di Sora è stato il controllo della coerenza tra le riprese. Cederberg ha sottolineato come la mancanza di un set di funzionalità per il controllo completo su aspetti come il colore dell’abbigliamento dei personaggi ha richiesto soluzioni complesse e verifiche continue. Questa mancanza di controllo si estendeva anche al movimento e al timing dei personaggi, con la necessità di adattare le tempistiche e le azioni in modo approssimativo, rendendo il processo più laborioso.

Censura e limiti creativi

Interessante è anche la capacità di Sora di riconoscere e rifiutare richieste di generazione di contenuti che potrebbero violare i diritti d’autore. Ad esempio, Sora rifiutava di creare clip che imitassero elementi distintivi di “Star Wars” o famosi stili cinematografici come quelli di Aronofsky o Hitchcock. Questo solleva interrogativi su come il modello sia stato addestrato e sulla sua capacità di riconoscere potenziali infrazioni del copyright, pur non avendo accesso diretto a tali dati.

Sebbene Sora di OpenAI rappresenti un avanzamento notevole nel campo della produzione video AI, i suoi limiti attuali riflettono le sfide intrinseche della tecnologia generativa. Mentre la tecnologia offre nuove possibilità creative, la necessità di interventi umani significativi e di controllo artistico rimane indispensabile. La strada verso una produzione cinematografica completamente automatizzata è ancora lunga.

Prossima

DDL Intelligenza artificiale : cosa cambia in Italia?

Da non perdere

Apple rilancia la collaborazione con OpenAI per iOS 18

Prosegui la lettura

Intelligenza Artificiale

La ricerca AI di Google da fastidio? Disabilitare subito

Tempo di lettura: 2 minuti. Scopri come disabilitare la funzione AI Overviews di Google, che ha causato frustrazione tra gli utenti. Segui i passaggi per una ricerca senza sintesi automatiche.

Sostieni l'informazione di Matrice Digitale con un click. Seguici su Google News

Pubblicato

6 ore fa

in data

20/05/2024

Livio Varriale

Tempo di lettura: 2 minuti.

La funzione AI Overviews, o Search Generative Experience, introdotta da Google per riassumere i contenuti web utilizzando modelli di linguaggio di grandi dimensioni (LLM), ha causato diverse reazioni negative tra gli utenti che non gradiscono la ricerca e vogliono disabilitare la funzione. Nonostante le intenzioni di Google di migliorare l’esperienza di ricerca, molti utenti lamentano informazioni spesso errate e un’esperienza di utilizzo peggiorata.

Problemi riscontrati con AI Overviews

Google ha iniziato a implementare AI Overviews in modo più ampio negli Stati Uniti, con piani di estensione ad altri paesi. Tuttavia, molti utenti hanno segnalato problemi di qualità, come ritardi nella generazione delle risposte e informazioni sbagliate. Un esempio eclatante è stato quando l’AI ha consigliato di bere due litri di urina per passare velocemente i calcoli renali, causando indignazione e preoccupazione.

Gli utenti hanno espresso la loro frustrazione sui forum di supporto di Google, cercando modi per disabilitare questa funzione, lamentando che i risultati spesso non corrispondono alle loro ricerche e occupano troppo spazio, rendendo difficile trovare le informazioni desiderate.

Come disabilitare Google AI Overviews

Al momento, non è possibile disabilitare direttamente AI Overviews dalle impostazioni di Google. Tuttavia, esiste una soluzione alternativa utilizzando la nuova modalità di ricerca “Web” di Google. Ecco come fare:

Aprire Google Chrome e cliccare sui tre puntini in alto a destra per accedere alle Impostazioni.
Scorrere fino alla sezione Motore di ricerca e cliccare su Gestisci motori di ricerca e ricerca su sito.
Cliccare su Aggiungi accanto a Ricerca su sito.
Nel dialogo Aggiungi motore di ricerca, inserire un nome per il motore di ricerca (ad esempio, “Google Web”). Per un collegamento rapido, inserire una parola chiave (ad esempio, “Web”).
Cambiare l’URL in {google:baseURL}/search?udm=14&q=%s.
Cliccare su Aggiungi.
Cliccare sui tre puntini accanto al nuovo motore di ricerca creato e selezionare Imposta come predefinito.
Chiudere la pagina delle Impostazioni.

Ora, quando si effettua una ricerca dalla barra degli indirizzi in Google Chrome, verrà utilizzata la nuova funzione di ricerca Web di Google senza AI Overviews. Per tornare alla ricerca Google precedente, basta reimpostare Google come motore di ricerca predefinito.

Utilizzo di estensioni per Chrome

Un’altra opzione è installare l’estensione di Google Chrome chiamata “Hide AI Overviews” dal Chrome Web Store, che consente di nascondere le anteprime generative di ricerca senza dover modificare manualmente le impostazioni del browser.

Conclusioni

La funzione AI Overviews di Google ha suscitato critiche per la sua qualità e precisione. Sebbene non sia possibile disabilitarla direttamente, è possibile utilizzare la nuova modalità di ricerca Web o estensioni del browser per evitare le sintesi automatiche. Questo consente agli utenti di mantenere un’esperienza di ricerca più tradizionale e affidabile.

Prosegui la lettura

Intelligenza Artificiale

Perché l’analisi del sentiment necessita di rilevare il sarcasmo?

Tempo di lettura: 2 minuti. Scopri come un nuovo algoritmo multimodale sviluppato dall’Università di Groningen migliora il rilevamento del sarcasmo, integrando analisi del testo, riconoscimento delle emozioni e emoticon.

Sostieni l'informazione di Matrice Digitale con un click. Seguici su Google News

Pubblicato

1 giorno fa

in data

19/05/2024

Livio Varriale

Tempo di lettura: 2 minuti.

Oscar Wilde una volta disse che il sarcasmo è la forma più bassa di spirito, ma la più alta forma di intelligenza; nessun algoritmo però vi è arrivato a riconoscerlo. Questa affermazione riflette la complessità nell’uso e nella comprensione del sarcasmo, noto per essere difficile da trasmettere correttamente anche di persona, e ancor più tramite testo. Le sottili variazioni di tono che indicano il sarcasmo possono facilmente confondere sia gli esseri umani che gli algoritmi informatici, limitando l’efficacia degli assistenti virtuali e degli strumenti di analisi dei contenuti.

Nuovo approccio multimodale per il rilevamento del sarcasmo

Xiyuan Gao, Shekhar Nayak e Matt Coler del Laboratorio di Tecnologia del Parlato presso l’Università di Groningen, Campus Fryslân, hanno sviluppato un algoritmo multimodale per migliorare il rilevamento del sarcasmo, analizzando vari aspetti delle registrazioni audio per aumentare la precisione. Gao ha presentato il loro lavoro il 16 maggio 2024, come parte di una riunione congiunta della Società Acustica d’America e dell’Associazione Acustica Canadese.

Caratteristiche dell’algoritmo

L’algoritmo si basa su due approcci complementari: l’analisi del sentimento utilizzando il testo e il riconoscimento delle emozioni tramite l’audio. Questo metodo integrato permette di ottenere una visione più completa del sarcasmo espresso nel parlato umano.

Parametri acustici: Il team ha estratto parametri come tono, velocità del parlato ed energia dal discorso.
Trascrizione del parlato: Utilizzando il riconoscimento automatico del parlato, il discorso è stato trascritto in testo per l’analisi del sentimento.
Integrazione degli emoticon: Ad ogni segmento del discorso sono stati assegnati emoticon che riflettono il contenuto emotivo.

Combinando questi segnali multimodali in un algoritmo di machine learning, l’approccio sfrutta i punti di forza delle informazioni uditive e testuali insieme agli emoticon per un’analisi completa.Fonte: Acoustics.org

Potenziali miglioramenti e applicazioni future

Il team è ottimista riguardo alle prestazioni dell’algoritmo, ma sta già cercando modi per migliorarlo ulteriormente. Gao ha sottolineato l’importanza di integrare meglio le espressioni e i gesti che evidenziano gli elementi sarcastici nel parlato e l’obiettivo di includere più lingue e adottare tecniche emergenti di riconoscimento del sarcasmo.

Questo approccio può essere utilizzato non solo per identificare il sarcasmo, ma anche in molti altri campi:

Analisi del sentiment: Tradizionalmente focalizzata sul testo, può beneficiare del riconoscimento del sarcasmo per applicazioni come la rilevazione di discorsi di odio online e l’estrazione delle opinioni dei clienti.
Riconoscimento delle emozioni: Basato sul parlato, può essere applicato all’assistenza sanitaria assistita dall’intelligenza artificiale.

Prosegui la lettura

Intelligenza Artificiale

Android 15 integra Gemini AI: nuove funzionalità e miglioramenti

Tempo di lettura: 2 minuti. Google integra Gemini AI in Android 15, con nuove funzionalità di ricerca, assistente contestuale e miglioramenti on-device per privacy e efficienza

Pubblicato

2 giorni fa

in data

18/05/2024

Livio Varriale

Tempo di lettura: 2 minuti.

Google ha annunciato una serie di nuove funzionalità AI integrate nel sistema operativo Android 15, offrendo uno sguardo su cosa dovrà competere il sistema operativo dell’iPhone di Apple entro la fine dell’anno. Android 15 è stato progettato con l’IA al suo centro, e Gemini rappresenta una parte fondamentale dell’esperienza Android a livello di sistema.

Caratteristiche principali di Gemini AI su Android 15

Barra di ricerca AI e Circle to Search

Una delle nuove funzionalità è una barra di ricerca alimentata dall’IA che può essere utilizzata per rispondere a domande e cercare informazioni. La funzione Circle to Search permette di risolvere problemi di matematica e fisica o di ottenere aiuto con i compiti.

Assistente AI contestuale

Gemini serve come assistente AI su Android, sostituendo Google Assistant. Questo assistente può essere richiamato come overlay su qualsiasi app in uso, offrendo supporto contestuale in tempo reale. Può creare immagini per testi e social media, rispondere a domande su video in riproduzione, interpretare PDF, siti web e altri contenuti, fornendo riassunti e traduzioni.

Privacy e elaborazione on-device

Google utilizza l’IA on-device per alcune funzionalità al fine di mantenere i dati sensibili privati, simile alla strategia di Apple. Gemini Nano, l’IA on-device di Google, genera risposte intelligenti nelle app di messaggistica e riassume memo vocali. Gemini Nano con Multimodalità arriverà sui telefoni Pixel entro la fine dell’anno, introducendo nuove funzionalità come TalkBack per aiutare utenti ciechi e ipovedenti a interpretare meglio il mondo circostante. Un’altra funzione in sviluppo è lo screening delle chiamate, che ascolta attivamente le chiamate e avvisa gli utenti se sembrano truffe.

Modelli Gemini 1.5 Flash e Pro

Google ha anche annunciato Gemini 1.5 Flash, una versione leggera del modello AI Gemini Pro. Gemini Flash è più efficiente, meno costoso e ha una latenza inferiore, ideale per distribuzioni su larga scala. Questo modello eccelle in riassunti, applicazioni di chat, didascalie di immagini e video, e estrazione di dati da documenti lunghi.

Gemini 1.5 Pro è stato migliorato e può seguire istruzioni sempre più complesse e sfumate, inclusa l’interpretazione di documenti fino a 1.500 pagine o un’ora di contenuti video. Gli utenti possono interagire con Gemini in Google Messages, e gli abbonati a Gemini Advanced possono sperimentare una nuova esperienza conversazionale mobile.

Project Astra

Project Astra è un altro sforzo di Google che si concentra su agenti AI utili nella vita quotidiana. Durante una demo, Google ha mostrato prototipi di agenti in grado di identificare oggetti, fornire contesto sulle informazioni dalla fotocamera e richiamare una sequenza temporale di eventi per trovare un oggetto perso.