La IA multimodal utiliza múltiples fuentes de entrada para lograr mejores resultados
Los primeros modelos de IA impresionaron por su capacidad para interpretar indicaciones de texto, pero la IA multimodal es capaz de hacer mucho más. A medida que se expandan los modelos existentes para aceptar más modalidades de entrada, las herramientas de inteligencia artificial se volverán más avanzadas.
¿Qué significa "multimodal"?
La palabra "multimodal" se refiere literalmente al uso de múltiples modos y, en el contexto de la IA, eso significa el uso de diferentes fuentes de entrada tanto para entrenar como para obtener resultados más informados. Los chatbots que arrasaron en el mundo en 2023 solo eran capaces de utilizar un único modo de entrada, que era texto.
La IA multimodal es capaz de aceptar dos o más métodos de entrada. Esto se aplica tanto al entrenar el modelo como al interactuar con el modelo. Por ejemplo, se podría entrenar un modelo para que asocie ciertas imágenes con ciertos sonidos utilizando conjuntos de datos de imágenes y audio. Al mismo tiempo, podrías pedirle a un modelo que combine una descripción de texto y un archivo de audio para generar una imagen que represente ambos.
Los posibles modos de entrada incluyen texto, imágenes, audio o información de sensores como temperatura, presión, profundidad, etc. Estos modos se pueden priorizar dentro del modelo, ponderando los resultados en función del resultado previsto.
Los modelos multimodales son una evolución de los modelos unimodales que experimentaron una explosión en popularidad durante 2023. Los modelos unimodales solo son capaces de recibir un mensaje de una única entrada (como texto). Un modelo multimodal puede combinar múltiples entradas como una descripción, una imagen y un archivo de audio para proporcionar resultados más avanzados.
¿Por qué la IA multimodal es mejor que la IA normal?
La IA multimodal es la evolución lógica de los modelos de IA actuales que permite modelos con más "conocimiento". Las aplicaciones de estos modelos son mucho más amplias, tanto en términos de uso por parte del consumidor, aprendizaje automático e implementación específica de la industria.
Supongamos que deseas crear una nueva imagen basada en una foto que tomaste. Podrías enviar la foto a una IA y describir los cambios que deseas ver. También puedes entrenar un modelo para que asocie sonidos con un tipo particular de imagen o para que dibuje asociaciones como la temperatura. Este tipo de modelos tendrían "mejores" resultados incluso si solo interactúas con ellos a través de texto.
Otros ejemplos incluyen subtítulos de vídeos usando audio y vídeo para sincronizar el texto con lo que sucede en la pantalla o una mejor recopilación de información usando gráficos e infografías para reforzar los resultados. Por supuesto, siempre debes mantener un saludable nivel de escepticismo al conversar con un chatbot.
La IA multimodal se está abriendo camino gradualmente en la tecnología cotidiana. Los asistentes móviles podrían mejorarse enormemente con el uso de modelos multimodales, ya que el asistente tendrá más puntos de datos y contexto adicional para hacer mejores suposiciones. Tu smartphone ya cuenta con cámaras, micrófonos, sensores de luz y profundidad, giroscopio y acelerómetro, servicios de geolocalización y conexión a internet. Todo esto podría resultar útil para un asistente en el contexto adecuado.
Las implicaciones para la industria son enormes. Imagina entrenar un modelo para realizar algún tipo de tarea de mantenimiento utilizando varias entradas para que pueda tomar mejores decisiones. ¿Se está calentando algún componente? ¿El componente parece desgastado? ¿Es más ruidoso de lo que debería ser? Esto se puede combinar con información básica, como la antigüedad del componente y su vida útil promedio, y luego se pueden ponderar los datos para llegar a conclusiones razonables.
Algunos ejemplos de IA multimodal
Google Gemini es quizás uno de los ejemplos más conocidos de IA multimodal. El modelo no ha estado exento de controversia, con un vídeo que muestra el modelo lanzado a fines de 2023 calificado de “falso” por sus detractores. Google admitió que el vídeo fue editado, que los resultados se basaron en imágenes fijas y no ocurrieron en tiempo real, y que las indicaciones fueron proporcionadas por texto en lugar de habladas en voz alta.
Los desarrolladores ya pueden comenzar a usar Gemini hoy simplemente solicitando una clave API en Google AI Studio. El servicio se lanzó en un nivel "gratuito para todos" con un límite de hasta 60 consultas por minuto. Necesitarás un conocimiento firme de Python para configurar el servicio (aquí hay un buen tutorial para comenzar).
Dicho esto, Gemini sigue siendo un prometedor modelo de IA multimodal que ha sido entrenado en audio, imágenes, vídeos, código y texto en diferentes idiomas. Va cara a cara con el GPT-4 de OpenAI, que puede aceptar indicaciones tanto de texto como de imágenes. También conocido como GPT-4V (con la V de visión), el modelo está disponible para los usuarios de ChatGPT Plus a través del sitio web de OpenAI, aplicaciones móviles y API.
Puedes usar GPT-4V de forma gratuita a través de Bing Chat (ahora Copilot)para cargar imágenes o tomar fotografías desde la cámara o cámara web de tu dispositivo. Simplemente haz clic en el ícono de imagen en el cuadro "Preguntarme cualquier cosa..." para adjuntar una imagen a tu consulta.
Otros modelos multimodales incluyen Runway Gen-2, un modelo que produce vídeos basados en indicaciones de texto, imágenes y vídeos existentes. Actualmente, los resultados parecen muy generados por IA, pero como prueba de concepto, sigue siendo una herramienta interesante con la que jugar.
Meta ImageBind es otro modelo multimodal que acepta texto, imágenes y audio además de mapas de calor, información de profundidad e inercia. Vale la pena consultar los ejemplos en el sitio web ImageBind para ver algunos de los resultados más interesantes (por ejemplo, cómo el audio del agua vertida y una foto de manzanas se pueden combinar en una imagen de manzanas lavándose en un fregadero).
La adopción de modelos de IA multimodal es una mala noticia para cualquiera que ya esté harto de escuchar todo sobre la tecnología, y seguramente mantendrá a empresas como OpenAI en las noticias por más tiempo. Sin embargo, la verdadera historia es cómo empresas como Apple, Google, Samsung y otros grandes actores llevarán esta tecnología a casa y a las palmas de los consumidores.
En última instancia, no es necesario saber que estás interactuando con otra palabra de moda para obtener los beneficios de la IA. Y fuera de la electrónica de consumo, el potencial en campos como la investigación médica, el desarrollo de fármacos, la prevención de enfermedades, la ingeniería, etc., podría tener el mayor impacto de todos.