SynVAE: el algoritmo puede crear melodías en base a imágenes

Van Gogh Museum 

Desarrolladores holandeses han creado una red neuronal que puede exhibir un análogo artificial de la sinestesia de sonido-visual: la capacidad de correlacionar las sensaciones visuales con los sonidos. El algoritmo, que puede crear música en base a imágenes, ha sido escrito en un artículo en arXiv.org, y también hablarán sobre él en la conferencia ICCVW 2019.

En un sentido amplio, los artistas, fotógrafos y diseñadores usan pinturas y otras obras visuales como una forma de transmitir información a otras personas. Sin embargo, este método de entrega de información no funciona si la persona tiene problemas de visión.

Al mismo tiempo, las obras visuales transmiten información de varias maneras, por ejemplo, utilizando la trama, la forma, el color y otras características, es decir, pueden describirse analíticamente. Esto significa que no hay ningún problema fundamental en transmitir la misma información de una manera diferente.

El algoritmo  

Por eso, Maximilian Müller-Eberstein y Nanne van Noord de la Universidad de Amsterdam han desarrollado un algoritmo capaz de convertir arte visual en melodía. La red neuronal lo logró aprendiendo independientemente mediante el uso de un método de enseñanza que no requiere un maestro.

El algoritmo se basa en la arquitectura de un codificador automático y realiza la conversión de los datos de origen a una representación oculta, que lleva la información básica sobre los datos de origen y le permite restaurarlos de una forma bastante similar. Los codificadores automáticos consisten en un codificador y un decodificador.

La peculiaridad de tales algoritmos es que, por regla general, el codificador y el decodificador funcionan con datos diferentes. Por ejemplo, recientemente los investigadores de Google usaron esta arquitectura para convertir la secuencia musical de cualquier instrumento en una parte de batería.


Flujo de trabajo de algoritmo
Maximilian Müller-Eberstein, Nanne van Noord / arXiv.org, 2019

Los desarrolladores holandeses utilizaron un enfoque más inusual en su trabajo y aplicaron un codificador que trabaja con imágenes y un decodificador que trabaja con música. Para utilizar el método de enseñanza sin un maestro, los autores utilizaron un codificador automático bidireccional.

Después de realizar la conversión de la imagen a la música, el algoritmo realiza la conversión inversa de la música recibida a una nueva imagen, después de lo cual se compara con la original. Esto le permite utilizar la función de pérdida y durante el entrenamiento para reducir la diferencia entre las dos imágenes, aumentando así la precisión del codificador automático.

Los desarrolladores entrenaron el algoritmo en el popular conjunto de datos MNIST que contiene 60 mil caracteres escritos a mano, así como en el conjunto de datos Behance Artistic Media, del cual utilizaron alrededor de 180 mil pinturas al óleo y acuarelas. Como decodificador de música, utilizaron el modelo de red neuronal capacitado MusicVAE.

Midiendo los resultados

Después del entrenamiento, los autores verificaron la precisión del algoritmo cuantitativamente, utilizando varias métricas, incluida la distancia Kullback - Leibler, así como cualitativamente. Para la segunda evaluación, pidieron a los voluntarios que describieran sus emociones al ver imágenes de un conjunto de datos con imágenes.

El experimento mostró que después de la codificación automática inversa, las emociones coincidían con las emociones al evaluar la imagen original con una precisión promedio del 71%. Puede evaluar el funcionamiento del algoritmo usted mismo en el sitio web del autor.

Anteriormente, se ha usado la arquitectura del codificador automático en otros trabajos relacionados con la música. Por ejemplo, el año pasado, los investigadores de Google crearon una red neuronal que escribe partituras de batería bastante realistas.


Victor Román
Esta noticia ha sido publicada originalmente en N+1, ciencia que suma.

Sobre N+1: Es la primera revista online de divulgación científica y tecnológica que permite la reproducción total o parcial de sus contenidos por medios de comunicación, bloggers e influencers, realizando la mención del texto y el enlace a la web: “Esta noticia ha sido publicada originalmente en la revista N+1, ciencia que sumawww.nmas1.org”. 

Novedades

Suscríbete

Déjanos tu mail para recibir nuestro boletín de noticias

La confirmación ha sido enviada a tu correo.