La conversazione attorno alle intelligenze artificiali generative si intensifica sempre di più anche grazie alla nascita di tecnologie come VALL-E. Il team di ricercatori Microsoft ha annunciato il suo nuovo modello di sintesi vocale, dal nome ispirato al robottino Wall-E del film Disney Pixar del 2008. Questa volta non si tratta di un robot spazzino, bensì di qualcosa di ancora più spiazzante: un'IA definita “modello di linguaggio codec neurale” il cui compito è quello di replicare la voce di una persona. La cosa shoccante è che gli basta un campione audio di soli tre secondi per ottenere l'effetto desiderato.

Microsoft spiazza tutti e presenta VALL-E, l'IA che può replicare la vostra voce in pochi secondi

Quello di cui è in grado Microsoft VALL-E è sintetizzare la voce di una persona, conservandone sia il tono emotivo che l'acustica della registrazione utilizzata come campione; se per esempio si utilizza la registrazione di una telefonata, il risultato sarà una voce con lo stesso effetto telefonico. Ciò è possibile grazie alla tecnologia EnCodec di Meta, che anziché manipolare forme d'onda già esistenti ne genera di nuove analizzando la voce della persona e suddividendola in “token” e utilizzando i suoi dati di addestramento per il risultato finale. Microsoft afferma di aver addestrato le capacità di VALL-E utilizzando la libreria audio LibriLight di Meta, contenente oltre 60.000 ore di estratti da audiolibri inglesi.

Come prevedibile, Microsoft non ha ancora reso open source il software dietro a VALL-E: il rischio è che qualcuno ne abusi per creare deepfake nocivi a persone e società. Per evitare che ciò accada, la compagnia afferma di star lavorando a uno strumento software per verificare se l'audio sia stato creato o meno con la sua IA. Rischi a parte, l'idea di Microsoft è quella di utilizzare VALL-E per la creazione di app per sintesi ed editing vocale in alta qualità; per un videomaker come me, avere uno strumento che mi permetta di correggere un errore vocale in un video in pochi secondi sarebbe una manna dal cielo. Senza contare la creazione di contenuti audio assieme ad altre IA generative come ChatGPT, in cui la stessa Microsoft sta investendo decine di miliardi.

