Škoda Karoq

A un generatore di immagini AI è stato insegnato a creare musica

La musica generata dall'intelligenza artificiale (AI) è già diventata una realtà. Gli strumenti di intelligenza artificiale ora possono creare musica con nient'altro che un messaggio di testo e i risultati superano tutte le aspettative.

Tuttavia, ciò non significa che gli strumenti di intelligenza artificiale possano creare direttamente musica. Invece, la musica passa attraverso generatori di immagini AI che creano spettrogrammi della musica. È quindi possibile convertire questi spettrogrammi in clip audio. Questo significa che la musica generata dall'intelligenza artificiale sostituirà la musica creata dall'uomo in futuro?

L'intelligenza artificiale basata sulle immagini insegna agli algoritmi del computer a riconoscere le immagini di luoghi e oggetti. Successivamente, vengono utilizzati algoritmi per riprodurre immagini simili ma uniche. DALL-E e Stable Diffusion sono buoni esempi. Per ora, puoi fare in modo che questi programmi visualizzino tutto ciò che desideri. Tutto attraverso il testo!

Quindi, lo strumento AI in grado di creare spettrogrammi si chiama Riffusion. Questo è l'ultimo progetto AI e, nella sua essenza, è un generatore di immagini da testo basato su una diffusione stabile (Stable Diffusion). Ma come è diventato capace di generare musica?

Dietro Riffusion ci sono il robotista Heik Martiros e lo sviluppatore di software Seth Forsgren. Volevano verificare se i moderni programmi di intelligenza artificiale potessero funzionare nel campo audio. Iniziò così il viaggio musicale di Riffusion. Forsgren parla della tecnologia in questo modo: “Io e Hake suoniamo insieme in una piccola band, e abbiamo iniziato il progetto solo perché amiamo la musica. Dopo aver visto gli straordinari risultati di Stable Diffusion per la generazione di immagini, ci siamo chiesti come sarebbe utilizzare un approccio di diffusione per creare musica?

Per scoprirlo, un team di due persone ha addestrato Stable Diffusion open source sulle immagini dello spettrogramma. Sono stati combinati con il testo. Successivamente, il programma è stato in grado di creare spettrogrammi di musica basati su determinati indizi.

All'inizio non sapevano se l'architettura del modello Stable Diffusion potesse creare un'immagine spettrogramma con sufficiente precisione da convertire in audio, ma si è scoperto che poteva fare questo e molto altro. Martiros e Forsgren hanno pubblicato i loro risultati sul sito ufficiale di Riffusion. All'inizio era un progetto per hobby. Ma ora i visitatori possono aggiungere i propri suggerimenti testuali. Ciò costringerà Riffusion a generare uno spettrogramma. Successivamente, i visitatori possono utilizzarlo come clip audio e riprodurlo sul sito.

I risultati in questa fase potrebbero non essere di altissima qualità. Ma sicuramente non è così male come potresti pensare.

Riffusion può anche tentare di riprodurre brani che includono rap nello stile di Eminem e K-Pop. Ma la funzione di generare testi non è così buona. Invece del testo, ascolterai melodiosi discorsi umani senza senso. Ma la cosa più interessante è che questo linguaggio incomprensibile corrisponde ancora al tono della canzone.

Questa tecnologia non è ancora pronta per sostituire la musica prodotta dall'uomo. Ma il progetto ci ha mostrato che gli algoritmi di elaborazione delle immagini AI hanno ancora un grande potenziale. Presto può diventare un assistente per gli autori di musica. Magari per trarre ispirazione per scrivere una canzone.

Puoi aiutare l'Ucraina a combattere contro gli invasori russi. Il modo migliore per farlo è donare fondi alle forze armate ucraine attraverso Salva Vita o tramite la pagina ufficiale NBU.

Condividi
Julia Alexandrova

Caffè. Fotografo. Scrivo di scienza e spazio. Penso che sia troppo presto per incontrare gli alieni. Seguo lo sviluppo della robotica, per ogni evenienza...

Lascia un Commento

L'indirizzo email non verrà pubblicato. I campi obbligatori sono contrassegnati con*