Esta red neuronal reconoce instrumentos musicales en videos y aísla sus sonidos [VIDEO]

The Beatles, 1966 
Wikimedia Commons

Los desarrolladores de MIT crearon una red neuronal, que de forma independiente encuentra un instrumento musical en un video y determina cómo suena. Si hay varios instrumentos en el video, el programa permite al usuario elegir cuál quiere escuchar haciendo clic en él, según el trabajo que se presentará en la conferencia de septiembre European Conference on Computer Vision (ECCV).

Normalmente, para que una red neuronal aprenda a reconocer objetos en una imagen o en una pista de sonido, se requiere un gran conjunto de datos etiquetados. Pero este etiquetado debe hacerse manualmente, lo que lleva bastante tiempo. Por ello, en los últimos años los investigadores utilizan cada vez más métodos alternativos para el entrenamiento de programas, que permiten que el algoritmo obtenga el conocimiento necesario de forma independiente.

Los autores del nuevo trabajo bajo la dirección de Hang Zhao, crearon una red neuronal llamada PixelPlayer. Consta de tres componentes: gráfico, audio y sintetización. La primera red neuronal analiza los elementos gráficos del video, mientras que la segunda analiza el espectrograma de la pista de audio. Luego, el sintetizador combina ciertas áreas en los cuadros (conjuntos de píxeles) con ciertos sonidos para determinar cómo suena un instrumento en particular.

Diagrama de arquitectura del sistema. Una red procesa datos gráficos, otra audio, y la tercera los compara.
Hang Zhao et al / ArXiv, 2018

Para entrenar el sistema de Inteligencia Artificial, los programadores usaron 714 videos de una duración de 60 horas. En total, se presentaron 11 categorías de instrumentos: acordeón, guitarra acústica, cello, clarinete, erhu (violín chino), flauta, saxofón, trompeta, tuba, violín y xilófono.

La característica principal del algoritmo es que utiliza un entrenamiento en profundidad "autocontrolado", es decir, no requiere datos etiquetados que indiquen cómo se ve o suena un instrumento. Toda la información necesaria la extrae de forma independiente, por lo que los investigadores no saben exactamente qué características particulares de los datos el sistema considera importantes.

En el video se observa cómo el usuario solo debe dar click a la imagen del instrumento para que el programa suba el volumen. Además, PixelPlayer permite ajustar el volumen de los instrumentos y editar la pista de audio.

Recientemente, investigadores de Facebook Research desarrollaron un método para convertir registros de música en grabaciones con otros instrumentos, estilos y géneros. El método se basa en el aprendizaje automático y permite entrenar una red neuronal sin comparar registros con otros estilos, instrumentos o géneros. 
 

María Cervantes
Esta noticia ha sido publicada originalmente en N+1, ciencia que suma.

Sobre N+1: Es la primera revista online de divulgación científica y tecnológica que permite la reproducción total o parcial de sus contenidos por medios de comunicación, bloggers e influencers, realizando la mención del texto y el enlace a la web: “Esta noticia ha sido publicada originalmente en la revista N+1, ciencia que suma: www.nmas1.org”.​​​​​​

Suscríbete

Déjanos tu mail para recibir nuestro boletín de noticias

La confirmación ha sido enviada a tu correo.