Clicky

Qué es GPTBot y por qué los sitios web lo bloquean

rastreador GPTBot

GPTBot de OpenAI es un rastreador web diseñado para recopilar datos de sitios web públicos

En agosto de 2023, OpenAI, la empresa de IA a la que se le atribuye el desarrollo de ChatGPT, anunció GPTBot, un rastreador web diseñado para recorrer la web y recopilar datos.

No mucho después de ese anuncio, algunos de los sitios web más importantes de Internet bloquearon el acceso del bot a su sitio web. ¿Pero por qué? ¿Qué es el GPTBot de OpenAI? ¿Por qué los grandes sitios web le temen y por qué intentan bloquearlo?

¿Qué es el GPTBot de OpenAI?

GPTBot es un rastreador web (web crawler en inglés) creado por OpenAI para buscar en Internet y recopilar información para los objetivos de desarrollo de la IA de OpenAI. Está programado para rastrear sitios web públicos y enviar los datos a los servidores de OpenAI. Luego, OpenAI utiliza estos datos para entrenar y mejorar sus modelos de IA, con el objetivo de construir sistemas de inteligencia artificial cada vez más avanzados. Para crear sofisticados modelos de IA como GPT-4 o sus productos secundarios como ChatGPT, los rastreadores web son casi indispensables.

Entrenar un modelo de IA requiere una enorme cantidad de datos, y una de las formas más efectivas de recopilar estos datos es mediante la implementación de herramientas como rastreadores web. Los rastreadores pueden navegar sistemáticamente por la web, seguir enlaces para indexar grandes volúmenes de páginas web y extraer datos clave como texto, imágenes y metadatos que coincidan con un patrón predefinido.

Luego, estos datos pueden estructurarse e introducirse en modelos de IA para entrenar sus capacidades de procesamiento del lenguaje natural o de generación de imágenes o entrenarlos para otras tareas de IA. En otras palabras, los rastreadores web recopilan los datos que hacen posible que herramientas como ChatGPT o DALL-E hagan lo que hacen.

Los rastreadores web no son un concepto nuevo. Probablemente haya millones de ellos rastreando los miles de millones de sitios web disponibles en Internet hoy en día. Y existen desde al menos principios de los años 90. GPTBot es sólo uno de esos rastreadores propiedad de OpenAI. Entonces, ¿qué está causando la controversia en torno a este rastreador web en particular?

GPTBot stop

¿Por qué los sitios de grandes tecnologías bloquean GPTBot?

Según Business Insider, algunos de los sitios web más grandes de Internet están bloqueando activamente el rastreador de OpenAI en sus sitios web. Entonces, si el objetivo final de GPTBot es avanzar en el desarrollo de la IA, ¿Por qué algunos de los sitios más importantes de Internet, algunos de los cuales se han beneficiado de una forma u otra de la IA, están en contra de él?

Bueno, aquí está la cuestión. Desde el resurgimiento de las tecnologías de IA generativa en 2022, ha habido numerosos debates sobre el derecho de las empresas de IA a utilizar, casi sin límites, datos obtenidos de Internet, una parte importante de los cuales está legalmente protegida por derechos de autor. No hay leyes claras que regulen cómo estas empresas recopilan y utilizan datos para su propio beneficio.

Entonces, básicamente, los rastreadores como GPTBot rastrean la web, capturan el trabajo creativo de las personas en forma de texto, imágenes u otros medios, y lo utilizan con fines comerciales sin obtener ningún permiso, licencia ni compensación a los creadores originales.

Es un salvaje oeste ahí fuera, y las empresas de inteligencia artificial están acaparando todo lo que pueden conseguir. Los grandes sitios web como Quora, CNN, el New York Times, Business Insider y Amazon no están muy contentos de que estos rastreadores recopilen su contenido protegido por derechos de autor, por lo que OpenAI puede obtener beneficios financieros a su costa.

Es por eso que estos sitios están implementando "robots.txt", un método que existe desde hace décadas para bloquear los rastreadores web. Según OpenAI, GPTBot obedecerá las instrucciones para rastrear o evitar rastrear sitios web según las reglas integradas en robots.txt, un pequeño archivo de texto que indica a los rastreadores web cómo comportarse en un sitio. Si tiene un sitio propio y le gustaría evitar que GPTBot obtenga tus datos, en unos días te mostramos cómo puedes impedir que los rastreadores de OpenAI raspen tu sitio web.

¿Pueden los sitios web realmente bloquear a GPTBot?

Si bien los rastreadores como GPTBot son indispensables para recopilar las enormes cantidades de datos necesarios para entrenar sistemas avanzados de inteligencia artificial, existen preocupaciones válidas sobre los derechos de autor y el uso legítimo que no se pueden ignorar.

Claro, existen herramientas simples como robots.txt que se pueden usar para protegerse contra esto, pero si GPTBot obedece las instrucciones de este archivo queda totalmente a discreción de OpenAI. No hay garantías de que lo haga, y no existe una forma inmediata e infalible de saber si lo ha hecho. En la lucha por mantener a GPTBot alejado de los datos protegidos por derechos de autor, OpenAI tiene la ventaja, al menos por ahora.