Algoritmo aprendió a leer labios con solo “ver videos”

2001: A Space Odyssey / Metro-Goldwyn-Mayer, 1968

Investigadores chinos y estadounidenses han desarrollado un nuevo método de entrenamiento de redes neuronales para poder leer los labios, que permitió obtener mejores resultados que los obtenidos por algoritmos similares. El nuevo algoritmo, que fue entrenado por otro especializado en grabaciones de voz, fue publicado en la conferencia AAAI 2020.

Contexto

Debido a que los modelos de redes neuronales grandes y precisos, por regla general, requieren grandes recursos informáticos, son difíciles de usar en teléfonos inteligentes y otros dispositivos móviles.

Existen métodos que le permiten comprimir el modelo, lo que reduce significativamente su tamaño y la potencia informática necesaria para el funcionamiento, pero conserva casi por completo la precisión. Uno de estos métodos se llama destilación de conocimiento (knowledge distillation).

Durante la destilación de conocimiento, el desarrollador toma un modelo de red neuronal grande (modelo de maestro) entrenado en una gran cantidad de datos y crea una red neuronal más compacta (modelo de estudiante).

La esencia del método es que ambas redes reciben los mismos datos y el alumno intenta repetir el resultado del trabajo del profesor en cada unidad de datos (por ejemplo, fotografías), no solo en la capa de salida, sino también en todas las intermedias.

El nuevo algoritmo

Ahora, un equipo de investigadores dirigido por Mingli Song de la Universidad de Zhejiang propuso usar este método para enseñar a una IA a leer los labios. En este caso, el algoritmo de reconocimiento de voz para grabaciones de audio actúa como un maestro, porque dichos algoritmos están mucho mejor desarrollados que los algoritmos para leer el habla por el movimiento de los labios.

En general, el algoritmo se puede representar de forma simétrica con dos redes neuronales recurrentes paralelas. Vale la pena señalar que el vector de entrada para la red recursiva para reconocimiento de labios se forma sobre la base de un vector de una red neuronal convolucional que procesa cuadros de video.


Esquema de aprendizaje de algoritmos 
Ya Zhao et al. / AAAI 2020
 

Los investigadores implementaron la destilación del conocimiento en forma de varios bloques responsables de diferentes escalas de datos: un cuadro (o el segmento correspondiente de audio), la secuencia completa de datos (toda la película) y la subsecuencia general más grande.

Los desarrolladores entrenaron y probaron el método en conjuntos de datos estándar para esta tarea: LRS2, el cual contiene más de 45 mil oraciones pronunciadas en la BBC, así como CMLR, el mayor conjunto de datos de lectura de labios en chino del norte (mandarín), que contiene más de 100 mil oraciones desde el aire CNTV.

Los resultados

Una comparación de la precisión de reconocimiento en estos conjuntos de datos con los mejores algoritmos similares en el momento del estudio mostró que el nuevo algoritmo supera al reconocimiento de labios un 7.66% mejor en el conjunto de datos CMLR (31.27% de errores de nivel de letra) y 2.75% mejor en LRS2 (45.53% de errores de nivel de letra).

Anteriormente se sugirió que los movimientos de los labios se usaran no solo para el reconocimiento del habla, sino también para aumentar la seguridad. En 2017, los investigadores chinos propusieron analizar la forma individual del movimiento de los labios al pronunciar la contraseña como un factor adicional que confirma la identidad.

 

Victor Román
Esta noticia ha sido publicada originalmente en N+1, ciencia que suma.

Sobre N+1: Es la primera revista online de divulgación científica y tecnológica que permite la reproducción total o parcial de sus contenidos por medios de comunicación, bloggers e influencers, realizando la mención del texto y el enlace a la web: “Esta noticia ha sido publicada originalmente en la revista N+1, ciencia que sumawww.nmas1.org”.  

Novedades

A pesar de la crisis económica que acecha a América Latina por la pandemia, varios países intentan paliar algunos de sus efectos a través de fondos para la investigación y el desarrollo tecnológico en COVID-19, sin que eso signifique necesariamente una vinculación entre las investigaciones científicas y las decisiones políticas.

Pese a crisis, Latinoamérica financia investigación en COVID-19

Nuestros países han destinado recursos adicionales para proyectos de investigación en ciencias. Sin embargo, estos apoyos enfrentan complejidades

Suscríbete

Déjanos tu mail para recibir nuestro boletín de noticias

La confirmación ha sido enviada a tu correo.