La inteligencia artificial logra su mayor eficiencia en la lectura de labios

¿Cansado de que tu celular no entienda correctamente tus comandos de voz? Quizás a tu smartphone le ha faltado abrir los ojos —su cámara— para leerte los labios. Esta es una posibilidad cada vez más cercana gracias a la inteligencia artificial.

DeepMind —la firma británica desarrolladora de plataformas de inteligencia artificial (IA) perteneciente a Google— y la Universidad de Oxford se han unido para crear un sistema de lectura de labios que puede lanzar acertados subtítulos a transmisiones en vivo, únicamente mediante la observación del interlocutor. Frases como "Sabemos que habrá cientos de periodistas aquí también" y "Según las últimas cifras de la Oficina de Estadísticas Nacionales" fueron descifradas con precisión por el sistema, únicamente mirando los labios del orador.

De acuerdo con New Scientist, el sistema de IA basado en el aprendizaje profundo (método para el aprendizaje abstracto de las máquinas sobre la base de múltiples niveles de representaciones de datos, incluidos los visuales y auditivos) logró perfeccionarse en la tarea encomendada luego de ver 5.000 horas de televisión. Seis programas, noticieros nocturnos y programas de entrevistas diurnos de la BBC, cuyos videos contenían 118.000 frases.

El primer entrenamiento de la IA recibido fue logrado con programas de televisión grabados entre enero de 2010 y diciembre de 2015, lo cual serviría de preparación para desempeñar su labor con programas transmitidos entre marzo y septiembre de 2016.

Durante su proceso de aprendizaje, el sistema debió lidiar con que algunas porciones de las 5.000 horas de transmisión que analizó tenían el audio desfasado por casi un segundo en relación con el video, lo cual pudo haber impedido que asociara determinados gestos con ciertas palabras. No obstante, de acuerdo con el reporte, la plataforma, asumiendo que la mayor parte de las imágenes estaban correctamente sincronizadas con el audio, logró detectar y superar los desperfectos, para acabar leyendo y subtitulando el total del material.

En la evaluación de su desempeño, el sistema se alzó sobre la performance registrada por un humano lector de labios profesional. Mientras el profesional anotó sin errores el 12,4% de palabras, la IA logró un 46,8%. Entre la mayoría de sus errores, se contaron varias “s” que no fueron escritas al final de las palabras.

En comparación con otros sistemas de lectura de labios automática, como LipNet (también desarrollado por Oxford), el proyecto de DeepMind también brilla. LipNet también ha superado la performance humana cuando ha sido puesto a evaluación en la lectura de imágenes de un banco de datos llamado GRID. El sistema alcanzó un 93,4% de exactitud en ciertas pruebas, en comparación con el 52,3% logrado por expertos humanos.

No obstante, GRID, con su vocabulario de 51 palabras, no se compara en términos de complejidad con las imágenes de la BBC, que contienen cerca de 17.500 vocablos. Asimismo, las 33.000 oraciones que aparecen en GRID son gramaticalmente homogéneas, mientras los diálogos y alocuciones en las imágenes de la BBC contienen discursos de variados formatos y fuentes.   

Yannis Assael, científico que trabaja en LipNet y que está interesado en usar el banco de informaciones de la BBC para entrenar a su sistema, señala que las aplicaciones de la lectura automática de labios “tienen un enorme potencial práctico, con aplicaciones en audífonos mejorados, dictado silencioso en espacios públicos y reconocimiento de voz en entornos ruidosos".

Hans Huerto

Si te gustó esta noticia, entérate de más a través de nuestros canales de Facebook y Twitter.

Novedades

Suscríbete

Déjanos tu mail para recibir nuestro boletín de noticias

La confirmación ha sido enviada a tu correo.