Self-supERvised, el comienzo de una era más poderosa, flexible y accesible para la visión por computadora

En un momento en que muchas versiones de Inteligencia Artificial (IA) se basan en conjuntos de datos preestablecidos para el reconocimiento de imágenes, Facebook ha desarrollado SEER (Self-supERvised), una solución de aprendizaje profundo capaz de registrar imágenes en Internet independientemente de los conjuntos de datos seleccionados y etiquetados.

Con importantes avances ya en marcha en el procesamiento del lenguaje natural (PNL), incluida la traducción automática, la interferencia del lenguaje natural y la respuesta a preguntas, SEER utiliza un innovador modelo de visión por computadora de mil millones de parámetros y auto-supervisado capaz de aprender de cualquier imagen en línea.

Hasta ahora, el equipo de inteligencia artificial de Facebook ha probado SEER en mil millones de imágenes públicas de Instagram sin retocar ni etiquetar. El nuevo programa funcionó mejor que los sistemas auto-supervisados más avanzados, así como los modelos auto-supervisados en tareas posteriores, como tiro bajo, detección de objetos, detección de imágenes y segmentación. De hecho, la exposición a solo el 10 por ciento del conjunto de datos de ImageNet todavía resultó en una tasa de reconocimiento del 77,9 por ciento por parte de SEER. Además, SEER obtuvo una tasa de precisión del 60,5 por ciento cuando se entrenó con solo el 1 por ciento del mismo conjunto de datos.

Ahora que Facebook ha sido testigo de la capacidad de SEER para reconocer imágenes de Internet en un entorno aplicado, el equipo de IA alienta a los desarrolladores y otras partes interesadas en el campo del aprendizaje automático a compartir ideas para mejorar y conocer las capacidades de SEER. La compañía ha abierto esta discusión a través de su biblioteca de código abierto, VISSL, utilizada para desarrollar SEER.

Naturalmente, el aprendizaje automático para el lenguaje frente al reconocimiento visual difiere en que la lingüística requiere un programa para reconocer la conexión semántica entre una palabra y su definición correspondiente. La visión por computadora, por otro lado, debe identificar cómo se agrupan los píxeles individuales para formar una imagen completa.

La tecnología de visión exitosa aborda este desafío utilizando dos métodos: 1) un algoritmo que entrena usando una gran cantidad de imágenes aleatorias en línea sin anotaciones ni metadatos, y 2) una red lo suficientemente grande para capturar y aprender cada componente visual del conjunto de datos en cuestión.

Para mitigar los desafíos relacionados con la capacidad informática para cantidades tan grandes de gráficos, Facebook AI ha desarrollado el algoritmo SwAV. Este algoritmo utiliza agrupación en línea para agrupar rápidamente imágenes con conceptos visuales similares a fin de identificar datos visuales similares que se encuentran más adelante. Hasta ahora, SwAV ha ayudado a SEER a desempeñarse con 6 veces menos tiempo de entrenamiento.

RegNet de Facebook

Imagen: SEER combina una familia de arquitectura reciente, RegNet, con un entrenamiento en línea auto-supervisado para escalar el entrenamiento previo a mil millones de parámetros en miles de millones de imágenes aleatorias.

Además del uso de SEER y VISSL para mejorar la visión por computadora y el aprendizaje automático, Facebook ha implementado varios algoritmos existentes que reducen el requisito de memoria por unidad de programación gráfica, aumentando así la velocidad de entrenamiento de cualquier modelo.

Estos algoritmos incluyen precisión mixta de la biblioteca de NVIDIA Apex, verificación de gradientes de PyTorch, optimizador fragmentado de la biblioteca FairScale y optimizaciones dedicadas para el entrenamiento en línea auto-supervisado.