Clicky

Descubren cómo hacer 30 veces más rápidos los generadores de imágenes de IA

generador de imágenes de IA

La técnica se llama "destilación de coincidencia de distribución" (DMD)

Los populares generadores de imágenes impulsados por inteligencia artificial (IA) pueden funcionar hasta 30 veces más rápido gracias a una técnica que condensa un proceso completo de 100 etapas en un solo paso, según muestra una nueva investigación.

Los científicos han ideado una técnica llamada "destilación de coincidencia de distribución" (DMD) que enseña a nuevos modelos de IA a imitar generadores de imágenes establecidos, conocidos como modelos de difusión, como DALL·E 3, Midjourney y Stable Diffusion.

Este framework da como resultado modelos de IA más pequeños y eficientes que pueden generar imágenes mucho más rápidamente manteniendo la misma calidad de la imagen final.

"Nuestro trabajo es un método novedoso que acelera 30 veces los actuales modelos de difusión, como la Stable Diffusion y DALLE-3", dijo en un comunicado el coautor principal del estudio, Tianwei Yin, estudiante de doctorado en ingeniería eléctrica e informática en el MIT. "Este avance no sólo reduce significativamente el tiempo de cálculo sino que también conserva, si no supera, la calidad del contenido visual generado".

Los modelos de difusión generan imágenes mediante un proceso de varias etapas. Utilizando imágenes con leyendas de texto descriptivas y otros metadatos como datos de entrenamiento, la IA está entrenada para comprender mejor el contexto y el significado detrás de las imágenes, de modo que pueda responder a las indicaciones de texto con precisión.

En la práctica, estos modelos funcionan tomando una imagen aleatoria y codificándola con un campo de ruido aleatorio para que sea destruida, explicó el científico de inteligencia artificial Jay Alammar en una publicación de blog. Esto se llama "difusión hacia adelante" y es un paso clave en el proceso de capacitación. A continuación, la imagen pasa por hasta 100 pasos para eliminar el ruido, lo que se conoce como "difusión inversa" para producir una imagen clara basada en el mensaje de texto.

Al aplicar su nuevo framework a un nuevo modelo (y reducir a uno estos pasos de "difusión inversa"), los científicos redujeron el tiempo promedio que llevaba generar una imagen. En una prueba, su modelo redujo el tiempo de generación de imágenes de aproximadamente 2.590 milisegundos (o 2,59 segundos) usando Stable Diffusion v1.5 a 90 ms, 28,8 veces más rápido.

DMD tiene dos componentes que trabajan juntos para reducir la cantidad de iteraciones requeridas del modelo antes de que genere una imagen utilizable. El primero, llamado "pérdida de regresión", organiza las imágenes en función de la similitud durante el entrenamiento, lo que hace que la IA aprenda más rápido. El segundo se llama "pérdida de coincidencia de distribución", lo que significa que las probabilidades de representar, por ejemplo, una manzana a la que le han dado un mordisco, corresponden con la frecuencia con la que es probable que te encuentres con una en el mundo real. Juntas, estas técnicas minimizan cuán extravagantes se verán las imágenes generadas por el nuevo modelo de IA.

"Disminuir el número de iteraciones ha sido el Santo Grial en los modelos de difusión desde sus inicios", dijo en el comunicado el coautor principal Fredo Durand, profesor de ingeniería eléctrica e informática en el MIT. Estamos muy entusiasmados de poder permitir finalmente la generación de imágenes en un solo paso, lo que reducirá drásticamente los costos de computación y acelerará el proceso".

El nuevo enfoque reduce drásticamente la potencia computacional necesaria para generar imágenes porque sólo se requiere un paso en comparación con "los cien pasos de refinamiento iterativo" en los modelos de difusión originales, dijo Yin. El modelo también puede ofrecer ventajas en industrias donde la generación eficiente y ultrarrápida es crucial, dijeron los científicos, lo que lleva a una creación de contenido mucho más rápida.

Los científicos detallaron sus hallazgos en un estudio subido el 5 de diciembre de 2023 al servidor de preimpresión arXiv: One-step Diffusion with Distribution Matching Distillation

Jesus_Caceres