Se puede modificar sutilmente el vídeo insertando una imagen en él
Investigadores de la Universidad de Washington han demostrado que la nueva herramienta de Google que utiliza el aprendizaje automático para analizar y etiquetar automáticamente el contenido de vídeo puede ser engañada insertando periódicamente en los vídeos una fotografía y a una velocidad muy baja. Después de insertar la imagen de un coche en un vídeo sobre animales, por ejemplo, el sistema devolvió resultados que sugieren que el vídeo era acerca de un Audi.
Google lanzó recientemente su Cloud Video Intelligence API para ayudar a los desarrolladores a crear aplicaciones que puedan reconocer objetos automáticamente y buscar contenido dentro de los vídeos. La anotación de vídeo automatizada sería una tecnología revolucionaria, ayudando a las fuerzas del orden a buscar vídeos de vigilancia de forma eficiente, a los aficionados al deporte a encontrar instantáneamente el momento en que se anotó un gol o a los sitios de alojamiento de vídeo a eliminar contenido inapropiado.
Google lanzó un sitio web de demostración que permite a cualquier persona seleccionar un vídeo para anotación. La API identifica rápidamente los objetos clave dentro del vídeo, detecta los cambios de escena y proporciona etiquetas de disparo de los eventos de vídeo con el tiempo. El sitio web de la API dice que el sistema puede utilizarse para "separar la señal del ruido, recuperando información relevante en el nivel de vídeo, disparo o por fotograma".
En un nuevo trabajo de investigación, ingenieros de la UW e investigadores de seguridad, incluidos los estudiantes de doctorado Hossein Hosseini y Baicen Xiao y el profesor Radha Poovendran, demostraron que la API puede ser engañada manipulando ligeramente los vídeos. Ellos mostraron que se puede modificar sutilmente el vídeo insertando una imagen en él, de modo que el sistema devuelva solamente las etiquetas relacionadas con la imagen insertada.
El mismo equipo de investigación demostró recientemente [PDF] que la plataforma basada en el aprendizaje automático de Google, diseñada para identificar y eliminar comentarios de los trolls de Internet, puede ser fácilmente engañada por los errores ortográficos, las faltas de ortografía en palabras ofensivas o la adición de puntuación innecesaria.
"Los sistemas de aprendizaje automático generalmente están diseñados para obtener el mejor rendimiento en entornos benignos. Pero en las aplicaciones del mundo real, estos sistemas son susceptibles a la subversión o ataques inteligentes", dijo el autor principal Radha Poovendran, presidente del departamento de ingeniería eléctrica de la UW y director del Network Security Lab. "Diseñar sistemas robustos y resistentes a los adversarios es fundamental a medida que avanzamos en la adopción de los productos de IA en aplicaciones cotidianas".
Como ejemplo, una captura de pantalla de la salida de la API en la Figura 1 para un ejemplo de vídeo llamado "animals.mp4", que es proporcionado por el sitio web de la API. De hecho, la herramienta de Google identifica con precisión las etiquetas de vídeo.
Los investigadores entonces insertaron en el vídeo una imagen de un coche de Audi (demostrado en la Figura 2) una vez cada dos segundos. La modificación es apenas visible, ya que la imagen se agrega una vez cada 50 fotogramas de vídeo, para una velocidad de 25 fotogramas.
La Figura 3 muestra una captura de pantalla de la salida de la API para el vídeo manipulado. Como se ve a continuación, la herramienta de Google cree con gran confianza que el vídeo manipulado es todo sobre el coche.
"Tal vulnerabilidad del sistema de anotación de vídeo socava seriamente su usabilidad en aplicaciones del mundo real", dijo Hossein Hosseini, estudiante de doctorado en ingeniería eléctrica de la UW. "Es importante diseñar el sistema de tal manera que funcione igualmente bien en escenarios adversarios".
"Nuestra investigación de Network Security Lab trabaja típicamente sobre las bases y la ciencia de la seguridad cibernética", dijo Poovendran, investigador principal de una beca recientemente concedida por MURI, donde el aprendizaje contradictorio de máquinas es un componente significativo. "Pero nuestro enfoque también incluye el desarrollo de sistemas robustos y resistentes para el aprendizaje de máquinas y sistemas de razonamiento que necesitan operar en entornos adversarios para una amplia gama de aplicaciones".
Artículo académico: Deceiving Google"™s Cloud Video Intelligence API Built for Summarizing Videos [PDF]