Meta ha mostrato l'IA per la creazione di video in base alla descrizione

I generatori di testo a immagine di intelligenza artificiale (AI) hanno fatto notizia negli ultimi mesi, ma i ricercatori sono già passati alla prossima frontiera: i generatori di testo a video basati sull'intelligenza artificiale. I ricercatori di Meta hanno presentato pubblicamente un tale nuovo generatore, riporta The Verge.

Il team di ingegneri di apprendimento automatico di Meta presentato un nuovo sistema chiamato Make-A-Video. Questo modello di intelligenza artificiale consente agli utenti di inserire una descrizione approssimativa della scena e genera un breve video che corrisponde al loro testo. I video sono chiaramente artificiali, con oggetti sfocati e animazioni distorte, ma sono comunque un risultato significativo nel campo della generazione di contenuti di intelligenza artificiale.

Nel suo post su Facebook Il CEO di Meta Mark Zuckerberg ha descritto il lavoro come un "sorprendente progresso", aggiungendo: "Il video è molto più difficile da creare rispetto alle foto, perché oltre a generare correttamente ogni pixel, il sistema deve anche prevedere come cambieranno nel tempo".

Le clip durano non più di cinque secondi e non contengono alcun suono, ma coprono una vasta gamma di indizi. Sebbene sia chiaro che il video è generato dal computer, la qualità di tali modelli di intelligenza artificiale migliorerà rapidamente nel prossimo futuro. In pochi anni, i generatori di immagini AI sono passati dalla creazione di immagini quasi incomprensibili a contenuti fotorealistici. E mentre i progressi nel video possono essere più lenti data la complessità quasi illimitata dell'area tematica, il premio per la generazione di video senza interruzioni motiverà molte organizzazioni e aziende a investire risorse significative nel progetto.

La società afferma di voler rilasciare una versione demo del sistema, ma non ha detto quando o come verrà implementata. In un articolo che descrive il modello, i ricercatori Meta notano che Make-A-Video è addestrato su coppie di immagini e didascalie e filmati video senza etichetta.

Il contenuto della formazione è stato derivato da due set di dati, WebVid-10M e HD-VILA-100M, che insieme contengono milioni di video e coprono centinaia di migliaia di ore di riprese video. A proposito, questo include filmati d'archivio.

I ricercatori notano che il modello ha molti limiti tecnici, oltre a fotogrammi sfocati e animazioni sparse. Make-A-Video emette 16 fotogrammi di video con una risoluzione di 64 × 64 pixel, che vengono quindi ridimensionati utilizzando un modello AI separato a 768 × 768 pixel.

Puoi aiutare l'Ucraina a combattere contro gli invasori russi. Il modo migliore per farlo è donare fondi alle forze armate ucraine attraverso Salva Vita o tramite la pagina ufficiale NBU.

Interessante anche:

Condividi
Julia Alexandrova

Caffè. Fotografo. Scrivo di scienza e spazio. Penso che sia troppo presto per incontrare gli alieni. Seguo lo sviluppo della robotica, per ogni evenienza...

Lascia un Commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con*