[email protected]

Algoritmo aprende para animar una foto fija

Jesus_Caceres

Categoría: Tecnología

Read Time: 5 mins

Publicado: 30 Noviembre 2016

Generan vídeos de un minuto con un sistema de aprendizaje profundo

Un equipo de investigadores del Laboratorio de Ciencias de la Computación y de Inteligencia Artificial (CSAIL) del MIT han creado un algoritmo de aprendizaje profundo que es capaz de generar sus propios vídeos y predecir el futuro de un vídeo basado en un solo fotograma.

Como se detalla en un documento que se presentará la próxima semana en la Conferencia sobre Neural Information Processing Systems en Barcelona, el equipo de CSAIL entrenó su algoritmo haciéndole mirar 2 millones de vídeos que durarían más de un año si se reprodujesen uno tras otro.

Estos vídeos consistían en momentos banales de la vida cotidiana para acostumbrar mejor a la máquina a las interacciones humanas normales. Es importante destacar que estos vídeos se encontraron "en la naturaleza", lo que significa que iban sin etiqueta y por lo tanto no ofrecían al algoritmo ninguna pista sobre lo que estaba ocurriendo en el vídeo.

A partir de este conjunto de datos de vídeo, el algoritmo intentaría generar desde cero vídeos que imitaban el movimiento humano en base a lo que se había observado en los 2 millones de vídeos. A continuación, se le enfrentó contra otro algoritmo de aprendizaje profundo, que intentó discriminar entre los vídeos que se generaron por la máquina y aquellos que eran reales, un método de aprendizaje llamado entrenamiento de confrontación de máquinas.

"Lo que encontramos en los primeros prototipos de este modelo fue que el generador [network] trataría de engañar a la otra red mediante la deformación del fondo o haciendo movimientos inusuales en el fondo", dijo Carl Vondrick, candidato a doctorado en CSAIL y autor principal del artículo. "Lo que necesitábamos dar al modelo era la idea de que el mundo en su mayoría es estático".

Para corregir este problema, Vondrick y sus colegas crearon una "arquitectura de dos corrientes" que obligaba a la red generativa a hacer un fondo estático mientras que se mueven los objetos en primer plano. Este modelo de dos corrientes generó vídeos mucho más realistas, aunque son cortos y con resoluciones muy bajas. Los vídeos producidos por el algoritmo fueron de 64 x 64 y constan de 32 fotogramas (las películas estándar disparan 24 fotogramas por segundo, lo que significa que estos vídeos tienen poco más de un segundo de duración), y representan cosas como playas, estaciones de trenes y caras de bebés recién nacidos (estos son especialmente aterradores).

algoritmo de generación de vídeo

Mientras que la capacidad de generar un segundo de vídeo a partir de cero puede no parecer mucho, esto sobrepasa bastante el trabajo previo en el campo, que sólo fue capaz de generar una serie de imágenes de vídeo con parámetros mucho más estrictos en cuanto al contenido. El principal escollo de la máquina generadora de vídeos es que los objetos en movimiento en el vídeo, en particular las personas, a menudo se representan como "burbujas", aunque los investigadores todavía encontraron que "es plausible la promesa de que nuestro modelo puede generar movimiento".

De hecho, este movimiento era tan plausible que cuando los investigadores mostraron un vídeo de la máquina y un vídeo "real" a los trabajadores contratados a través de Mechanical Turk de Amazon y les pidieron que dijeran cuál era más realista, eligieron vídeos generados por la máquina alrededor del 20 por ciento del tiempo.

Más allá de la generación de vídeos originales, uno de los resultados más prometedores de este trabajo es la posibilidad de aplicarlo a vídeos y fotos que ya existen. Cuando los investigadores aplicaron su algoritmo de aprendizaje profundo a un cuadro fijo, el algoritmo fue capaz de discriminar entre objetos en la foto y animarlos en 32 fotogramas, producciendo en los objetos "movimientos bastante razonables". Según la información de Vondrick, esta es la primera vez que una máquina ha sido capaz de generar vídeo de múltiples cuadros de una imagen estática.

Esta capacidad de anticipar el movimiento de un objeto o una persona es crucial para la futura integración de máquinas en el mundo real, en la medida en que esto permitirá que las máquinas no realicen acciones que puedan dañar a las personas o ayudar a las personas a que se lastimen. De acuerdo con Vondrick también ayudará en el ámbito del aprendizaje de la máquina sin supervisión, ya que este tipo de algoritmo de visión artificial recibe todos sus datos de entrada de vídeos no marcados. Si las máquinas quieren realmente conseguir un buen reconocimiento y clasificación de objetos, van a tener que ser capaces de hacer esto sin los datos de marcado para cada objeto.

Pero para Vondrick, una de las posibilidades más emocionantes contenidas en su investigación tiene poco valor en el mundo real o científico.

"En cierto modo fantaseo con una máquina que cree una película o un corto espectáculo de televisión", dijo Vondrick. "Estamos generando sólo un segundo de vídeo, pero a medida que comencemos la ampliación tal vez podremos generar un par de minutos de vídeo donde realmente se cuente una historia coherente. No estamos cerca de ser capaces de hacer eso, pero creo que estamos dando un primer paso".

#Vídeo