Google usó el “Reto del Maniquí” para entrenar un algoritmo de creación de videos

Google / YouTube 

Los desarrolladores de Google Research le han enseñado a un algoritmo a crear un mapa de profundidad en videos, en el que se mueven tanto las personas como la cámara. Esto puede ayudar a crear aplicaciones para teléfonos inteligentes que pueden, por ejemplo, cambiar la profundidad del campo en los anuncios, dicen los autores en el blog de Google AI.

El mapa de profundidad es una imagen en la que los píxeles no reflejan el color y el brillo, sino la distancia al objeto. Los mapas de profundidad se utilizan tanto en proyectos de investigación (para crear modelos 3D a partir de bocetos 2D), como en aplicaciones para el consumidor. Por ejemplo, por esta razón funciona la función de cambiar la profundidad de campo en las fotos y crear un desenfoque artificial detrás de un objeto en los teléfonos inteligentes modernos.

Sin embargo, tales algoritmos funcionan con una imagen estática o con barridos en los que la cámara móvil se mueve en relación con los objetos estáticos, y los objetos en movimiento generalmente se filtran mediante algoritmos similares.

El reto del maniquí

Ahora, investigadores de Google Research bajo el liderazgo de William Freeman crearon un algoritmo para hacer frente a una tarea más difícil: crear un mapa de profundidad para los barridos, en el que se mueven la cámara y los objetos. Dado que los investigadores se centraron en una tarea específica con personas en movimiento, en lugar de objetos, se enfrentaron con el problema de crear un conjunto de datos grande y adecuado.

Por eso, como datos para la capacitación, utilizaron videos de personas que participaron en el flash mob de Mannequin Challenge, que se hizo popular en 2016. Durante este particular flash mob, las personas en el cuadro se congelaron en posiciones naturales, y el operador caminó entre ellos.

Los desarrolladores utilizaron aproximadamente dos mil videos de YouTube como datos preliminares para crear conjuntos de datos. Los procesaron con los métodos clásicos de creación de mapas de profundidad utilizados para los barridos con objetos estáticos, como el método de recreación de la estructura de movimiento (SfM) y el método de estéreo de múltiples ángulos (MVS). Durante el entrenamiento, el algoritmo recibió mapas de profundidad calculados para mapas como ejemplos de referencia para los cuales está orientado.

Para que el algoritmo funcione con escenas dinámicas, los investigadores utilizaron el siguiente esquema. Al procesar cada fotograma, el algoritmo de video toma un fotograma vecino, calcula el flujo óptico que refleja el movimiento de los objetos en el fotograma basándose en estas dos imágenes, y crea un mapa de profundidad primario sobre la base de este.

Además, una red neuronal separada para la segmentación semántica identifica áreas con personas en un marco. Como resultado, la red neuronal principal recibe un conjunto de un marco de color, una máscara con personas recortadas y un mapa de profundidad con una máscara aplicada. Basado en ellos, crea un mapa de profundidad completo con datos mejorados para objetos estáticos, como paredes interiores, y datos "inscritos" en áreas con personas.

Los investigadores demostraron una variedad de resultados del algoritmo, y también mostraron ejemplos de su aplicación. Como uno de estos ejemplos, enseñaron al algoritmo a tomar un cuadro del video y crear una animación con nuevos ángulos, en la que la cámara se "mueve" entre personas congeladas.

El año pasado, los desarrolladores de Facebook utilizaron la función de mapa de profundidad en los teléfonos inteligentes modernos para crear panoramas 3D rápidamente. Mirando a través de este panorama, el usuario puede mover el teléfono inteligente y ver cómo los objetos en el marco se mueven de forma realista con él.


Victor Román
Esta noticia ha sido publicada originalmente en N+1, ciencia que suma.

Sobre N+1: Es la primera revista online de divulgación científica y tecnológica que permite la reproducción total o parcial de sus contenidos por medios de comunicación, bloggers e influencers, realizando la mención del texto y el enlace a la web: “Esta noticia ha sido publicada originalmente en la revista N+1, ciencia que sumawww.nmas1.org”. 

 

Suscríbete

Déjanos tu mail para recibir nuestro boletín de noticias

La confirmación ha sido enviada a tu correo.