Bing Chat AI puede ahora entender tus imágenes

Bing Chat tiene ahora las funciones de entrada de imágenes de GPT-4
Bing Chat, ChatGPT y otras herramientas generativas de IA similares se han centrado principalmente en comprender el contenido del texto y proporcionar respuestas. Sin embargo, también es increíblemente útil comprender las imágenes, y eso es lo que Microsoft está implementando ahora en su Bing Chat AI.
En una reciente publicación de blog, Microsoft anunció una nueva función para Bing Chat, llamada Visual Search (Búsqueda visual). Con Visual Search, puedes cargar una imagen o seleccionar una imagen existente en la web, y Bing intentará comprenderla y usar ese contexto en las respuestas.
El vídeo de demostración de Microsoft (incrustado a continuación) muestra a alguien cargando una maqueta dibujada a mano de un formulario web y pidiéndole a Bing que genere código HTML y CSS para que sea funcional.
Microsoft explicó en la publicación del blog: "Ya sea que viaje a una nueva ciudad de vacaciones y pregunte sobre la arquitectura de un edificio o en casa en particular tratando de pensar en ideas para el almuerzo basadas en el contenido de su refrigerador, cargue la imagen en Bing Chat y utilícela para aprovechar el conocimiento de la web para obtener respuestas".
El software que puede detectar el contenido de las imágenes no es nada nuevo. Google Lens ha podido identificar personas, animales, plantas, puntos de referencia y otros objetos en fotos desde 2017, y su predecesor más limitado, Google Goggles, se remonta a 2010.
Microsoft está usando las funciones de detección de imágenes de GPT-4, que es el mismo modelo de lenguaje que usa la versión premium de ChatGPT. Sin embargo, las entradas de imágenes aún no están disponibles en ChatGPT, por lo que esta es la primera vez que vemos esa función ampliamente disponible.
Probé Visual Search con algunas fotos y los resultados fueron impresionantes. Pedirle a Bing que describa imágenes brinda respuestas mucho más detalladas que las que obtendrías de Google Lens.
"Esta es una foto de un perro negro y tostado sentado en una alfombra marrón esponjosa. El perro lleva un collar rojo con una placa plateada. El perro está mirando a la cámara con las orejas levantadas. El fondo consiste en un sofá blanco con almohadas azules y blancas. La foto está tomada desde un ángulo alto". También interpretó correctamente que la imagen se subió de lado.
Puedes probar la función abriendo Bing Chat en Microsoft Edge (Microsoft aún lo bloquea en otros navegadores) y haciendo clic en el ícono del contorno de la cámara en el campo de texto.