WorldGaze, el algoritmo que le permite a tu smartphone comprender lo que estás mirando

Universidad Carnegie Mellon / YouTube 

Ingenieros estadounidenses han creado un algoritmo que permite a los teléfonos inteligentes comprender lo que el usuario está mirando y, por lo tanto, interpretar con mayor precisión sus comandos de voz. Compara los datos de las cámaras delantera y trasera y, por lo tanto, calcula el punto que está mirando una persona. El artículo se presentará en la conferencia CHI 2020.

Contexto

Los asistentes de voz se han desarrollado mucho en los últimos años, pero aún tienen varios problemas fundamentales, incluida su pobre entendimiento del contexto. Por ejemplo, a menudo no funcionan bien con pronombres demostrativos. Sin embargo, en la comunicación cotidiana, las personas usan constantemente esta forma de orientación, por lo que podría hacer que los asistentes de voz se parezcan más a las personas.

Para que los smartphones entiendan de qué está hablando el usuario en este caso, necesitan usar los datos de la cámara. La forma más obvia de implementar dicho algoritmo es simplemente apuntar la cámara a un objeto de interés para que esté en el centro del encuadre.

El nuevo enfoque

Pero esto hace que el uso del teléfono no sea natural, por lo que los desarrolladores liderados por Chris Harrison de la Universidad Carnegie Mellon sugirieron usar las cámaras a ambos lados del equipo al mismo tiempo para determinar la dirección de la mirada de una persona, sin obligarlo a dirigir con precisión el smartphone.

Los autores usaron un iPhone con iOS 13, porque a partir de esta versión, el sistema permite usar dos cámaras al mismo tiempo. Para reconocer la dirección, los desarrolladores utilizaron la API del sistema para rastrear la posición de la cabeza. Sobre esta base, el programa recibe un vector con la dirección del rostro y, conociendo los parámetros de ambas cámaras, lo transfiere a los datos de la cámara trasera.

Los objetos en estos datos son reconocidos por el marco integrado de iOS. La principal limitación es que solo funciona con objetos familiares, sin embargo, los desarrolladores sugieren que esto se puede resolver utilizando una única base de datos en la nube. El algoritmo compara el vector con los objetos reconocidos frente a la cámara y los clasifica según su distancia.

El programa escucha al usuario en busca de una frase de activación, reconociendo palabras usando el algoritmo de dictado integrado en el sistema. Después de que el usuario dice la frase de activación y el comando, el programa compara los pronombres demostrativos en el comando con los objetos y forma el comando final, en el cual los pronombres se reemplazan con objetos específicos.

Asistente de voz

Dado que la aplicación es una demostración del método, procesa el comando en sí y lee la respuesta, pero si lo desea, el comando puede enviarse para su procesamiento al asistente de voz del sistema o incluso integrarse en el sistema.

Uno de los tres autores del artículo trabaja en Apple, que recientemente presentó una solicitud de patente para un método similar, que le permite refinar el comando con pronombres indicativos usando una mirada. La aplicación describe diversas implementaciones de dicho sistema, incluso con un altavoz inteligente con una cámara incorporada, así como un teléfono inteligente en la habitación.

 

Victor Román
Esta noticia ha sido publicada originalmente en N+1, ciencia que suma.

Sobre N+1: Es la primera revista online de divulgación científica y tecnológica que permite la reproducción total o parcial de sus contenidos por medios de comunicación, bloggers e influencers, realizando la mención del texto y el enlace a la web: “Esta noticia ha sido publicada originalmente en la revista N+1, ciencia que sumawww.nmas1.org”.  

Novedades

Nuestro reportero del futuro Juan Scaliter, autor de "Exploradores del futuro" y "La Ciencia de los Superhéroes", viaja cinco años hacia adelante y nos envía la primera de sus historias sobre todo lo que presencia desde la perspectiva de una familia común y corriente.

La otra vida de Pi: el transporte del 2025

Al cumplirse casi cinco años de iniciada la pandemia, los autos privados son prohibidos, la inteligencia artificial invade el transporte, y la energía solar amenaza a la energía eléctrica

Suscríbete

Déjanos tu mail para recibir nuestro boletín de noticias

La confirmación ha sido enviada a tu correo.