Algoritmo aprendió a leer labios con solo “ver videos”

2001: A Space Odyssey / Metro-Goldwyn-Mayer, 1968
Investigadores chinos y estadounidenses han desarrollado un nuevo método de entrenamiento de redes neuronales para poder leer los labios, que permitió obtener mejores resultados que los obtenidos por algoritmos similares. El nuevo algoritmo, que fue entrenado por otro especializado en grabaciones de voz, fue publicado en la conferencia AAAI 2020.
Contexto
Debido a que los modelos de redes neuronales grandes y precisos, por regla general, requieren grandes recursos informáticos, son difíciles de usar en teléfonos inteligentes y otros dispositivos móviles.
Existen métodos que le permiten comprimir el modelo, lo que reduce significativamente su tamaño y la potencia informática necesaria para el funcionamiento, pero conserva casi por completo la precisión. Uno de estos métodos se llama destilación de conocimiento (knowledge distillation).
Durante la destilación de conocimiento, el desarrollador toma un modelo de red neuronal grande (modelo de maestro) entrenado en una gran cantidad de datos y crea una red neuronal más compacta (modelo de estudiante).
La esencia del método es que ambas redes reciben los mismos datos y el alumno intenta repetir el resultado del trabajo del profesor en cada unidad de datos (por ejemplo, fotografías), no solo en la capa de salida, sino también en todas las intermedias.
El nuevo algoritmo
Ahora, un equipo de investigadores dirigido por Mingli Song de la Universidad de Zhejiang propuso usar este método para enseñar a una IA a leer los labios. En este caso, el algoritmo de reconocimiento de voz para grabaciones de audio actúa como un maestro, porque dichos algoritmos están mucho mejor desarrollados que los algoritmos para leer el habla por el movimiento de los labios.
En general, el algoritmo se puede representar de forma simétrica con dos redes neuronales recurrentes paralelas. Vale la pena señalar que el vector de entrada para la red recursiva para reconocimiento de labios se forma sobre la base de un vector de una red neuronal convolucional que procesa cuadros de video.
Esquema de aprendizaje de algoritmos
Ya Zhao et al. / AAAI 2020
Los investigadores implementaron la destilación del conocimiento en forma de varios bloques responsables de diferentes escalas de datos: un cuadro (o el segmento correspondiente de audio), la secuencia completa de datos (toda la película) y la subsecuencia general más grande.
Los desarrolladores entrenaron y probaron el método en conjuntos de datos estándar para esta tarea: LRS2, el cual contiene más de 45 mil oraciones pronunciadas en la BBC, así como CMLR, el mayor conjunto de datos de lectura de labios en chino del norte (mandarín), que contiene más de 100 mil oraciones desde el aire CNTV.
Los resultados
Una comparación de la precisión de reconocimiento en estos conjuntos de datos con los mejores algoritmos similares en el momento del estudio mostró que el nuevo algoritmo supera al reconocimiento de labios un 7.66% mejor en el conjunto de datos CMLR (31.27% de errores de nivel de letra) y 2.75% mejor en LRS2 (45.53% de errores de nivel de letra).
Anteriormente se sugirió que los movimientos de los labios se usaran no solo para el reconocimiento del habla, sino también para aumentar la seguridad. En 2017, los investigadores chinos propusieron analizar la forma individual del movimiento de los labios al pronunciar la contraseña como un factor adicional que confirma la identidad.
Victor Román
Esta noticia ha sido publicada originalmente en N+1, ciencia que suma.
Sobre N+1: Es la primera revista online de divulgación científica y tecnológica que permite la reproducción total o parcial de sus contenidos por medios de comunicación, bloggers e influencers, realizando la mención del texto y el enlace a la web: “Esta noticia ha sido publicada originalmente en la revista N+1, ciencia que suma: www.nmas1.org”.
Novedades

La inteligencia artificial y el big data en el sector del entretenimiento
Proteja sus datos personales y comerciales a un nivel superior
La piel de oveja: un inusitado aliado anti fraude de los antiguos abogados
Cómo mejorar la seguridad en una página web
Colombia, Ecuador y Perú comparten gran parte de su biodiversidad agrícola y el dilema por el uso de las semillas nativas o transgénicas. Estas últimas están en vilo porque, a pesar de haber pasado por muchos estudios científicos, todavía hay quienes dudan de su seguridad e impacto tanto en la salud como en el medioambiente.
Transgénicos en los Andes
Países andinos Colombia, Ecuador y Perú viven una encrucijada por el uso y la normativa de los cultivos y alimentos genéticamente modificados
Suscríbete
Déjanos tu mail para recibir nuestro boletín de noticias