Inteligencia artificial convierte canción de Rihanna en una sinfonía de Mozart

Flickr

Investigadores de Facebook Research han desarrollado un método para convertir registros de música en grabaciones con otros instrumentos, estilos y géneros. El método se basa en el aprendizaje automático y permite entrenar una red neuronal sin comparar registros con otros estilos, instrumentos o géneros. 

Los desarrolladores demostraron las posibilidades del método en diferentes estilos musicales y artistas, por ejemplo, convirtiendo la sinfonía de Mozart en una grabación de un pianista tocando la música de Beethoven. El trabajo ha sido publicado en arXiv.org.

El aprendizaje automático se utiliza en muchas áreas y es una de las aplicaciones más impresionantes. Sin embargo se había usado poco en el campo de las grabaciones de audio. A pesar de que hay formas de sintetizar grabaciones de voz de alta calidad y convertir el habla de una persona en el habla de otra persona, la tecnología para convertir la música en registros de otros estilos aún está poco desarrollada.

Uno de los pasos más importantes lo dio WaveNet en el año 2016. El sistema está diseñado para sintetizar sonidos realistas y dio un gran impulso a este campo. De hecho, este último estudio bajo la dirección de Yaniv Taigman (Facebook), ha utilizado la tecnología de WaveNet.

La base de todo es el algoritmo NSynth, el cual consiste en un único codificador que traduce el audio original en su representación de alto nivel, y un conjunto de decodificadores para traducir esta representación en una grabación de audio de un cierto estilo. El codificador está diseñado de tal manera que no tiene en cuenta las propiedades específicas de un estilo o autor en particular y extrae del registro solo los elementos básicos. 


La estructura del algoritmo
Noam Mor et al.

De Rihanna a Mozart, de Metallica a Beethoven

Una de las ventajas de este enfoque es que la red neuronal puede manejar correctamente los estilos musicales que no escuchó durante el entrenamiento. Para asegurarse de que el codificador no memoriza la música, es decir, codifica sus propiedades semánticas, durante el entrenamiento, los investigadores distorsionaron ligeramente los datos de entrada, cambiando el tono de la música de forma aleatoria.

Los autores del trabajo han entrenado la red neuronal en música de Mozart, Haydn, Bach y Beethoven. Después del entrenamiento, realizaron varios experimentos para probar el funcionamiento de la red neuronal. En uno de ellos invitaron a tres pianistas con experiencia, que convertirían 60 segmentos de cinco segundos de registros musicales en música de piano. Un tercio eran discos de las obras de Bach para instrumentos de teclado, otro tercio de las sinfonías de Mozart, y el último tercio eran canciones de swing jazz, riffs de guitarra y música instrumental china. Lo mismo hizo la red neuronal. 

Como resultado, la red neuronal recibió puntajes más bajos por la calidad de la traducción, pero aún así se manejó bastante bien, especialmente al hacer discos del último grupo en música de piano.

Los autores mostraron muchos ejemplos de la operación de una red neuronal. Incluyendo la conversión de canciones de Metallica, Elvis Presley y Rihanna en música clásica. Los ejemplos se pueden apreciar en el siguiente video:

Además, los investigadores pidieron voluntarios, así como tres músicos para distinguir el trabajo de la red neuronal de los registros originales. Para hacer esto, se les dieron aleatoriamente seis registros, de los cuales solo uno era real. Las pruebas han demostrado que en la mayoría de los casos las personas no pueden distinguir los registros creados por la red neuronal de los reales.

Hasta el momento Google era la empresa que más estaba dedicando sus esfuerzos en mejorar este tipo de algoritmos. Durante su última conferencia I/O, el buscador presentó Google Duplex, una impresionante función de voz basada en inteligencia artificial que permite hacer llamadas y hablar con otra persona sin que esta sepa que está hablando con una máquina.

 

Grigory Kopiev 

Traducido por Victor Román
Esta noticia ha sido publicada originalmente en N+1, tecnología que suma.

Sobre N+1: Es la primera revista online de divulgación científica y tecnológica que permite la reproducción total o parcial de sus contenidos por medios de comunicación, bloggers e influencers, realizando la mención del texto y el enlace a la web: “Esta noticia ha sido publicada originalmente en la revista N+1, tecnología que sumawww.nmas1.org”.​​​​

Novedades

Suscríbete

Déjanos tu mail para recibir nuestro boletín de noticias

La confirmación ha sido enviada a tu correo.