Clicky

ChatGPT acaba de recibir una importante mejora en la generación de imágenes

GPT-4o

Más realismo, mejor texto y mayor consistencia con el nuevo modelo GPT-4o

OpenAI ha mejorado significativamente las capacidades de generación de imágenes de ChatGPT, añadiendo la actualización como parte del modelo GPT-4o presentado en mayo pasado.

El nuevo y mejorado generador de IA ya está disponible para todos los usuarios de ChatGPT, tanto en los planes de pago como en la versión gratuita (aunque los usuarios gratuitos tienen más restricciones de uso).

Hace tiempo que es posible generar imágenes a través de la interfaz ChatGPT aunque, entre bastidores, el trabajo se delegaba en el modelo de imagen DALL-E 3. Ahora, todo será gestionado por GPT-4o, para una experiencia más consistente y nativa.

Aquí se incluyen numerosas mejoras que cubren áreas con las que las herramientas de creación de imágenes con IA solían tener dificultades: renderizar texto, mantener la coherencia de caracteres en las imágenes y dibujar diagramas. OpenAI afirma que ahora puedes esperar resultados más precisos, exactos y fotorrealistas en tus indicaciones.

Imágenes más realistas y precisas

palacio creado con ChatGPT

Imagen: Las imágenes generadas no siempre son perfectas, pero cada vez están más cerca de serlo.

Las imágenes creadas con IA suelen tener un brillo artificial que indica que fueron creadas por algoritmos, algo que debería ser menos evidente con las imágenes GPT-4o. Una de las imágenes de demostración mostradas por OpenAI muestra a una mujer escribiendo en una pizarra, con una vista reflejada en ella; todo bastante realista, aunque fíjate en la pequeña leyenda en la parte inferior que indica que este fue el mejor de los ocho intentos de ChatGPT en la indicación.

El arte de IA que crean los usuarios también debería ajustarse más a las indicaciones, según OpenAI. Así, si se necesitan objetos específicos en lugares específicos o personas en posiciones específicas, estas instrucciones se ejecutarán con mayor fidelidad. Una de las imágenes de ejemplo más impresionantes muestra una tira cómica de cuatro paneles renderizada por ChatGPT, sin errores ni inconsistencias evidentes.

Intenté que ChatGPT convirtiera una novela de Austen en una tira cómica y produjera una imagen fotorrealista de una casa señorial con jardín. Los resultados fueron impresionantes, aunque no perfectos. Sin duda, son mucho mejores que las imágenes que ChatGPT producía anteriormente, aunque el renderizado tarda más en completarse (normalmente minutos en lugar de segundos).

El texto y los diagramas han mejorado enormemente

cubierta de libro creada con ChatGPT

Imagen: El texto ya no es un problema importante, por lo que se pueden crear con facilidad falsas cubiertas de libros.

Intentar que la IA represente textos y diagramas con precisión ha sido un desafío durante mucho tiempo: la forma en que se construyen estas herramientas significa que son mucho mejores para inventar y remezclar las imágenes con las que fueron entrenadas, en lugar de reproducir una copia exacta del alfabeto o una serie de rectángulos y flechas.

El nuevo modelo GPT-4o puede renderizar texto y diagramas con un alto nivel de detalle y precisión, por lo que no debería haber tantos errores ni inconsistencias extrañas. El vídeo de OpenAI incluía un menú, una invitación, una tarjeta de embarque y un diagrama que explicaba el experimento del prisma de Newton, todo generado a partir de una única instrucción de texto.

Cuando le pedí a ChatGPT que creara una infografía que explicara el ADN de forma sencilla y una portada con un título y autor específicos, la infografía se ajustó al pie de la letra: el gráfico era básico pero preciso (según la consigna), y la portada parecía la que se ve en una tienda. Y, lo que es igual de importante, no había artefactos extraños ni inconsistencias en las imágenes.

Coherencia y edición

profesor creado con ChatGPT

Imagen: Profesor, ¿es usted? La coherencia del personaje y la imagen aún necesitan trabajo.

Ahora es más fácil mantener la coherencia de personajes y escenas entre imágenes, modificar solo partes de una imagen y dejar el resto intacto, y crear diferentes capas de una imagen. Incluso puedes crear fondos transparentes, si es necesario, o especificar colores mediante códigos hexadecimales.

Otras mejoras se refieren a la forma en que ChatGPT puede aceptar y remezclar sus propias imágenes e incorporar otra información (de la web y sus datos de entrenamiento). Una de las imágenes de demostración de OpenAI se creó a partir del mensaje "crear una infografía visual que describa por qué San Francisco es tan brumoso" y ChatGPT hizo exactamente eso (bueno, al mejor de tres).

En mis propias pruebas, ChatGPT me pareció mucho mejor editando imágenes y bastante competente al remezclarlas en diferentes estilos. Aún le cuesta mantener la coherencia entre las imágenes, especialmente con objetos y personajes complejos. Sin duda, es mejor en este aspecto, pero aún tiende a exagerar con las ediciones, lo que hace que la IA sea menos útil para retocar imágenes o crear series de imágenes que deban coincidir.

Cuestiones de derechos de autor y seguridad

diagrama creado con ChatGPT

Imagen: Los diagramas ahora son mucho menos absurdos y más precisos.

Como ocurre con cualquier anuncio de IA generativa, vuelven a surgir problemas relacionados con los derechos de autor, el uso indebido y el consumo energético. OpenAI ha declarado públicamente que es imposible desarrollar estas herramientas sin entrenamiento con imágenes con derechos de autor, aunque recientemente ha comenzado a firmar acuerdos de contenido con proveedores como Shutterstock. Brad Lightcap, director de operaciones de OpenAI, declaró al Wall Street Journal que el generador de imágenes GPT-4o rechazará las solicitudes para imitar la obra de cualquier artista vivo.

En cuanto a la seguridad, OpenAI afirma que todas las imágenes generadas incluyen metadatos C2PA que las identifican como generadas por IA, aunque estos metadatos pueden eliminarse fácilmente con una simple captura de pantalla. El generador de IA también está diseñado para refutar cualquier intento de crear "materiales de abuso sexual infantil y deepfakes sexuales", según OpenAI, así como otras indicaciones que infrinjan sus políticas de contenido.

Este es claramente un gran avance para las imágenes de IA: la tecnología mejorada es realmente asombrosa en ocasiones, y están desapareciendo muchos de los indicios de la IA y los errores que comete. Sin embargo, plantea importantes preguntas sobre el futuro al que nos dirigimos, un futuro en el que las falsificaciones son muy fáciles de crear, en el que el trabajo creativo lo realizan robots en lugar de personas, y en el que colectivamente perdemos la capacidad de dibujar una imagen, crear una frase o escribir una línea de código. Y entonces, ¿Cómo encontrará la IA generativa más datos de entrenamiento?

Jesus_Caceres