Speech2Face: red neuronal puede dibujar el rostro de una persona con solo escuchar su voz

Tae-Hyun Oh et al. / arXiv, 2019

Desarrolladores estadounidenses presentaron la red neuronal Speech2Face, la cual fue entrenada con varios millones de videos para recrear una imagen aproximada de un rostro a partir del espectrograma del habla de una persona. El modelo se basa en tres parámetros principales: género, raza y edad. La descripción del algoritmo y los resultados de su trabajo están disponibles en una preimpresión publicada en arXiv.org.

La voz de una persona se puede usar para determinar algunas de sus características con una precisión variable: es fácil determinar el sexo, la edad es un poco más difícil (pero aún así posible), y el acento da una idea general de la nacionalidad. Como resultado, uno puede imaginarse cómo es una persona, pero esta presentación no será lo suficientemente precisa.

Una cara para una voz

Ahora los científicos del Instituto de Tecnología de Massachusetts (MIT) con la participación de Tae-Hyun Oh decidieron verificar si es posible restaurar con precisión la apariencia de una persona con su voz mediante el aprendizaje automático. Utilizaron el conjunto de datos AVSpeech para entrenar una red neuronal, que consiste en más de un millón de videos cortos de más de cien mil personas diferentes: cada video en la base de datos se divide en una pista de audio y video.

La arquitectura de la red neuronal se organiza de la siguiente manera. Primero, el algoritmo pre-entrenado VGG-Face usa las características de la cara de una persona del cuadro al video para crear una imagen de rostro completo de la persona. Cara con una expresión facial neutra. Otra parte del algoritmo reconstruye el video usado de la pista de audio a un espectrograma de voz y, utilizando los resultados de una red neuronal paralela, genera una imagen facial aproximada de la persona que está hablando.

La precisión del algoritmo desarrollado se estimó mediante tres indicadores demográficos: los científicos compararon el género, la edad aproximada y la raza de la imagen original de una persona a partir del video y la imagen restaurada sobre la base de la voz.


Esquema del algoritmo.
Tae-Hyun Oh et al. / arXiv, 2019

A pesar del hecho de que los autores han logrado restaurar las imágenes de algunas personas a partir del video, las métricas objetivas muestran la imperfección del modelo desarrollado. En particular, el modelo adivina bien el sexo de una persona, pero rara vez puede determinar la edad con una precisión de diez años, además "dibuja" a las personas con apariencia caucásica y asiática.

Los investigadores notaron que el propósito de su trabajo no era la restauración exacta de la apariencia de una persona a partir de su voz; sino que se enfocaron en el aislamiento y la precisión de algunos parámetros importantes como género, edad y raza. Por eso es imposible mostrar exactamente cómo se ve una persona con solo su voz: mientras ciertos parámetros son suficientes para crear, por ejemplo, avatares animados de una persona de acuerdo con su voz.

Además, los científicos notan que su trabajo también tiene beneficios de investigación: la generación de personas completas sobre la base de una voz ayudará a estudiar mejor la correlación con la apariencia. La semana pasada, otro algoritmo que resalta las características de una persona a partir de la imagen de una persona se utilizó para convertir imágenes estáticas (no solo fotos, sino también imágenes) en imágenes animadas. Puedes ver los resultados del trabajo aquí.


Victor Román
Esta noticia ha sido publicada originalmente en N+1, ciencia que suma.

Sobre N+1: Es la primera revista online de divulgación científica y tecnológica que permite la reproducción total o parcial de sus contenidos por medios de comunicación, bloggers e influencers, realizando la mención del texto y el enlace a la web: “Esta noticia ha sido publicada originalmente en la revista N+1, ciencia que sumawww.nmas1.org”. 

 

Suscríbete

Déjanos tu mail para recibir nuestro boletín de noticias

La confirmación ha sido enviada a tu correo.