In questi giorni Google ha svelato due nuove intelligenze artificiali in grado di generare veri e propri filmati partendo da un semplice input testuale: il loro nome è Imagen Video e Phenaki e sono una prepotente risposta all'IA Make-A-Video presentata in nei giorni scorsi da Meta. Scopriamo tutti i dettagli che caratterizzano questi algoritmi!

Input di testo trasformati in video: con Imagen Video e Phenaki di Google è possibile

Imagen Video è un'evoluzione di Imagen, l'IA in grado di generare immagini da un testo, e permette in questo caso di creare dei brevi filmati di 16 frame, 3 frame per secondo, ad una risoluzione di 24 x 48 pixel. L'algoritmo, dopo la generazione del video, si occupa di effettuare un upscale predittivo a 128 frame, 24 frame per secondo, con una risoluzione di 1280 × 768 pixel.

Il risultato finale, spesso, non è molto verosimile: le animazioni sono goffe e sembrano essere uscite da film horror di serie b, ma è comunque sbalorditivo vedere come un'intelligenza artificiale possa essere allenata in questo modo per generare veri e propri contenuti dai semplici input.

Phenaki, d'altro canto, è in grado di sfruttare input di testo molto lunghi per generare dei filmati anche oltre i due minuti. Gli esempio proposti da Google vedono un astronauta camminare su Marte con il suo cane mentre alle sue spalle sparano fuochi d'artificio, oppure un orsetto che nuota nella baia di San Francisco in mezzo a pesciolini colorati.

Gli ingegneri di Google hanno tenuto a specificare che hanno provato ad addestrare l'intelligenza artificiale per evitare che quest'ultima possa creare contenuti pornografici, disturbanti o vera e propria disinformazione, ma il lavoro non è ancora ultimato. Proprio per questo motivo, la compagnia ha deciso di non permettere ancora l'utilizzo al pubblico di questi due algoritmi.

