Veo 3, l’IA di Google per creare video realistici con audio, è disponibile anche in Italia

Veo 3, il modello di intelligenza artificiale di Google che consente di generare video realisti con audio sincronizzato, è disponibile anche in Italia.
Gli utenti abbonati a Gemini Pro, un piano mensile che costa circa 22 euro e permette di accedere alle funzionalità avanzate dell’intelligenza artificiale di Google, hanno ora accesso a una versione potenziata del modello, denominata "Veo 3 Fast", anche nel nostro paese. Questa variante è in grado di generare video con il doppio della velocità rispetto alla versione standard. I video creati con Veo 3 Fast hanno una risoluzione di 720p e durano al massimo otto secondi.
Gli abbonati “Pro” possono realizzare fino a tre video. Superata questa soglia quotidiana, l'applicazione tornerà automaticamente a utilizzare il modello precedente, Veo 2.
Che cos’è Veo 3A differenza del modello precedente - Veo 2 appunto - e di strumenti come Sora di OpenAI, Veo 3 non si ferma alla generazione di immagini in movimento. Integra effetti sonori, rumori ambientali e persino dialoghi, sincronizzandoli perfettamente con l’azione del video. L’IA di Google è dunque in grado di produrre video con persone che parlano, in molteplici lingue tra cui l’italiano. La cosa curiosa è che Veo 3 riesce addirittura a riprodurre, in modo più o meno convincente, le sfumature dei dialetti.
Basato su un’architettura che unisce diffusione e trasformatori (diffusion-transformer), Veo 3 sfrutta le enormi risorse computazionali di Google e, con ogni probabilità, una porzione significativa dell’archivio video di YouTube per il proprio addestramento, anche se DeepMind – il team che si occupa dell’IA più avanzata di Big G – resta volutamente vaga sui dettagli.
Il risultato è un modello capace di comprendere le leggi della fisica del mondo reale e rispettare prompt narrativi complessi, generando clip di 8 secondi dall’effetto sorprendentemente realistico.
La capacità di Veo 3 di gestire prompt sfumati - specificando angoli di ripresa, stili artistici o persino dialoghi - lo distingue nettamente dalla concorrenza.
Per esempio un prompt che descrive un marinaio che indica un mare in tempesta mentre recita versi poetici genera un video con onde che si infrangono, ululati di vento e la voce del marinaio perfettamente sincronizzata con il movimento delle labbra.
Tuttavia Veo 3 non è privo di difetti: gesti complessi con le mani, come contare con le dita, possono metterlo in difficoltà, probabilmente a causa della scarsa rappresentazione nei dati di addestramento.
Ma la capacità di questo modello di simulare la fisica in modo realistico - come un’aurora boreale che danza nel cielo artico - rende i suoi video simili a riprese reali effettuate da professionisti.
Ciò che rende Veo 3 davvero rivoluzionario è la fusione nativa di video e audio, un traguardo tecnico che ha rappresentato a lungo una sfida per gli sviluppatori di IA.
A differenza di modelli rivali come Runway o lo stesso Sora, che spesso richiedono una sincronizzazione audio in post-produzione, Veo 3 genera simultaneamente entrambe le modalità, garantendo una perfetta corrispondenza labiale e coerenza sonora ambientale. Non è un semplice avanzamento tecnologico: è un cambio di paradigma. Che può potenziare la creatività ma anche dare vita a contenuti controversi e offensivi.
The wait is over. @GeminiApp is now shipping Veo 3 *globally* for all Pro members!That means India, Indonesia, all of Europe, and more are starting to get access to create videos right now.As a member, you'll get 3 video generations per day, and that credit will replenish… pic.twitter.com/uPa0p0KQZu
— Josh Woodward (@joshwoodward) July 3, 2025
Per contrastare eventuali abusi, ogni frame è marcato digitalmente con il watermark SynthID di Google, invisibile all’occhio umano ma teoricamente tracciabile. E, da poche settimane, è presente anche una piccola scritta, “Veo”, in basso a destra nei video generati.
Tuttavia, questa misura non garantisce che gli utenti meno attenti – ad esempio quelli che scorrono rapidamente i contenuti sui social – si rendano conto di trovarsi davanti a un video generato dall’intelligenza artificiale.
Su TikTok stanno circolando video razzisti generati con intelligenza artificiale che hanno tutta l’aria di essere stati creati con Veo 3 [la scritta “Veo” in basso a destra non lascerebbe dubbi].
Nei video in questione, persone nere vengono ritratte come scimmie o criminali. L’IA di Google è stata utilizzata anche per costruire narrazioni false o fuorvianti sui migranti.
Questi contenuti stanno raccogliendo milioni di visualizzazioni, nonostante diffondano immagini profondamente offensive e cariche di pregiudizi.
La Repubblica