Clicky

Cómo evitar que ChatGPT robe tu contenido y tráfico

crawler de ChatGPT

Bloquear al robot rastreador CCBot puede ahorrar mucho tráfico a tu sitio

ChatGPT y similares modelos de lenguaje grande (LLM) han agregado mayor complejidad al panorama de amenazas en línea en constante crecimiento. Los ciberdelincuentes ya no necesitan avanzadas habilidades de codificación para ejecutar fraudes y otros ataques dañinos contra empresas y clientes en línea, gracias a los bots como servicio, los servidores proxy residenciales, las granjas de CAPTCHA y otras herramientas de fácil acceso.

Ahora, la última tecnología que perjudica los resultados de las empresas es ChatGPT.

ChatGPT, OpenAI y otros LLM no solo han planteado cuestiones éticas al entrenar sus modelos con datos extraídos de Internet. Los LLM están impactando negativamente el tráfico web de las empresas, lo que puede ser extremadamente perjudicial para las ellas.

3 riesgos que presentan los LLM, ChatGPT y los plugins de ChatGPT

Entre las amenazas que ChatGPT y los plugins de ChatGPT pueden plantear contra las empresas en línea, hay tres riesgos clave en los que nos centraremos:

1. El robo de contenido (o la republicación de datos sin el permiso de la fuente original) puede dañar la autoridad, las clasificaciones SEO y el valor percibido de su contenido original.

2. La reducción del tráfico a tu sitio web o aplicación se vuelve problemática, ya que los usuarios que obtienen respuestas directamente a través de ChatGPT y sus complementos ya no necesitan encontrar o visitar tus páginas.

3. Los robos de datos, o incluso la amplia distribución accidental de datos confidenciales, son cada vez más probables a cada segundo. No todos los datos "de cara al público" están destinados a ser redistribuidos o compartidos fuera del contexto original, pero los rastreadores no conocen la diferencia. Los resultados pueden incluir cualquier cosa, desde una pérdida de ventaja competitiva hasta daños graves a la reputación de tu marca.

Dependiendo de tu modelo de negocio, tu empresa debería considerar formas de optar por no utilizar tus datos para capacitar a los LLM.

Las 3 industrias más afectadas

Las industrias con mayor riesgo de sufrir daños provocados por ChatGPT son aquellas en las que la privacidad de los datos es una de las principales preocupaciones, el contenido único y la propiedad intelectual son diferenciadores clave, y los anuncios, los ojos y los visitantes únicos son una fuente importante de ingresos. Estas industrias incluyen:

1. Comercio electrónico: las descripciones de productos y los modelos de precios pueden ser diferenciadores clave.

2. Streaming, medios y publicaciones: se trata de brindar a la audiencia contenido único, creativo y entretenido.

3. Anuncios clasificados: los ingresos por publicidad de pago por clic (PPC) pueden verse gravemente afectados por una disminución en el tráfico del sitio web (así como por otros problemas de bots como fraude de clics o análisis sesgados del sitio debido a rastreadores).

Cómo obtiene ChatGPT datos de entrenamiento

Según un artículo de investigación publicado por OpenAI, ChatGPT3 se entrenó en varios conjuntos de datos:

• Rastreo ordinario
• WebText2
• Books1 and Books2
• Wikipedia

La mayor cantidad de datos de entrenamiento proviene del rastreo ordinario, que brinda acceso a información web a través de un repositorio abierto de datos de rastreo web. El robot rastreador Common Crawl, también conocido como CCBot, aprovecha Apache Nutch para permitir a los desarrolladores crear rastreadores a gran escala.

La versión más actual de CCBot se rastrea desde Amazon AWS y se identifica con un agente de usuario de 'CCBot/2.0'. Pero las empresas que quieran permitir CCBot no deben confiar únicamente en el agente de usuario para identificarlo, porque muchos bots malos falsifican a sus agentes de usuario para disfrazarse de buenos bots y evitar ser bloqueados.

Para permitir CCBot en tu sitio web, utiliza atributos como rangos de IP o DNS inverso. Para bloquear ChatGPT, tu sitio web debe, como mínimo, bloquear el tráfico de CCBot.

3 formas de bloquear CCBot

1. Robots.txt: Dado que CCBot respeta los archivos robots.txt, puedes bloquearlo con las siguientes líneas de código:

User-agent: CCBot
Disallow: /

La propia OpenAI indica la forma de bloquear su rastreador GPTBot mediante robots.txt:

User-agent: GPTBot
Disallow: /

También puedes bloquear GPTBot no permitirendo el acceso a estas direcciones IP:

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28

2. Bloquear el agente de usuario de CCBot: puedes bloquear de forma segura un bot no deseado a través del agente de usuario. (Ten en cuenta que, por el contrario, permitir el tráfico de bots a través de un agente de usuario puede ser inseguro y los atacantes pueden abusar fácilmente de él).

3. Software de gestión de bots: ya sea para ChatGPT o una base de datos de la web oscura, la mejor manera de evitar que los bots rastreen tus sitios web, aplicaciones, y las API cuentan con protección contra bots especializada que utiliza el aprendizaje automático para mantenerse al día con la evolución de las tácticas de amenazas en tiempo real.

Los rastreadores siempre pueden encontrar soluciones

Los LLM utilizan robots rastreadores para recopilar datos de capacitación. Si bien bloquear CCBot podría ser eficaz para bloquear los rastreadores ChatGPT en la actualidad, no se sabe qué deparará el futuro para los rastreadores LLM. En el futuro, si demasiados sitios web bloquean el acceso de OpenAI (por ejemplo) a su contenido, los desarrolladores podrían decidir dejar de respetar el archivo robots.txt y dejar de declarar su identidad de rastreador en el agente de usuario.

Otra posibilidad es que OpenAI podría utilizar su asociación con Microsoft para acceder a los datos del scraper de Microsoft BingMicrosoft BingMicrosoft Bing, lo que haría la situación más desafiante para los propietarios de sitios web. Los bots de Bing se identifican como Bingbot, pero bloquearlos podría causar problemas al impedir que tu sitio sea indexado en el motor de búsqueda de Bing, lo que resultaría en menos visitantes humanos.

Podrías enfrentar problemas similares al bloquear el LLM Bard de GoogleBard de Google (competidor de ChatGPT). Google es vago sobre el origen y la recopilación de los datos públicos utilizados para entrenar a Bard, pero es posible que Bard se esté entrenado con datos recopilados por los rastreadores de Googlebot. Al igual que con Bingbot, bloquear el robot de Google probablemente no sería prudente, ya que afectaría la forma en que se indexa tu sitio web y la forma en que el motor de búsqueda de Google dirige el tráfico a tu sitio. El resultado podría suponer una importante caída de visitantes.

Uso de plugins para acceder a datos en vivo

Una de las principales limitaciones de modelos como ChatGPT es la falta de acceso a datos en vivo. Dado que se capacitó con un conjunto de datos que finaliza en 2021, no puede proporcionar la información más relevante y actualizada. Ahí es donde entran los plugins.

Los plugins se utilizan para conectar LLMs como ChatGPT a herramientas externas y permitir que los LLMs accedan a datos externos disponibles en línea, que pueden incluir datos privados y noticias en tiempo real. Los plugins también permiten a los usuarios completar acciones en línea (por ejemplo, reservar un vuelo o pedir comida) a través de llamadas API.

Algunas empresas están desarrollando sus propios plugins para proporcionar una nueva forma para que los usuarios interactúen con su contenido/servicios a través de ChatGPT. Pero, dependiendo de tu industria, permitir que los usuarios interactúen con tu sitio web a través de plugins ChatGPT de terceros puede significar que sus usuarios vean menos anuncios, así como un menor tráfico a tu sitio web.

También puedes notar que los usuarios están menos dispuestos a pagar por tus funciones premium una vez que tus funciones puedan replicarse a través de plugins ChatGPT de terceros. Por ejemplo, un cliente web no oficial que interactúe con tu sitio podría ofrecer funciones premium a través de su interfaz de usuario.

Cómo identificar solicitudes de plugins ChatGPT

La documentación de OpenAI indica que las solicitudes con un encabezado HTTP de agente de usuario específico (con token: "ChatGPT-User") provienen de plugins de ChatGPT. Pero la documentación no indica que el agente de usuario divulgado sea el único agente de usuario que los plugins pueden utilizar al realizar solicitudes HTTP.

Por lo tanto, a medida que los plugins de ChatGPT interactúan con API de terceros, las API pueden realizar cualquier tipo de solicitudes HTTP desde tu propia infraestructura. El siguiente diagrama muestra lo que sucede cuando se utiliza un "plugin de deportes en vivo" ficticio con ChatGPT para obtener una actualización sobre un evento deportivo.

rastreador de ChatGPT

1. ChatGPT activa el plugin Live Sport y realiza una solicitud a los puntos finales de la API según los parámetros del mensaje del usuario.
2. El plugin realiza una solicitud HTTP para extraer un sitio web de deportes y obtener la información más reciente sobre el evento.
3. Luego, la información se devuelve al usuario final a través de ChatGPT.

De hecho, un plugin puede realizar una solicitud a una API deportiva sin tener que rastrear el sitio web de deportes. De hecho, cuando las solicitudes se realizan directamente desde el servidor que aloja la API del plugin, no hay restricciones para el agente de usuario.

Cómo bloquear solicitudes del plugin de ChatGPT

En un proceso similar al bloqueo de los rastreadores web de ChatGPT, puede bloquear solicitudes de plugins que declaran su presencia con la subcadena "ChatGPT-User" por agente de usuario. Pero bloquear el agente de usuario también podría bloquear a los usuarios de ChatGPT con el modo "navegación" activado. Y, contrariamente a lo que podría indicar la documentación de OpenAI, bloquear las solicitudes del "ChatGPT-User" no garantiza que ChatGPT y sus plugins no puedan acceder a tus datos bajo diferentes tokens de agente de usuario.

De hecho, los plugins de ChatGPT pueden realizar solicitudes directamente desde los servidores que alojan sus API utilizando cualquier agente de usuario e incluso navegadores automatizados (sin cabeza). La detección de plugins que no declaran su identidad en el agente de usuario requiere técnicas avanzadas de detección de bots.

Determinar los próximos pasos

La obtención de conjuntos de datos de alta calidad de contenido generado por humanos seguirá siendo de vital importancia para los LLM. A largo plazo, empresas como OpenAI (financiada parcialmente por Microsoft) y Google pueden verse tentadas a utilizar Bingbots y Googlebots para crear conjuntos de datos para capacitar a sus LLM. Eso haría más difícil para los sitios web simplemente optar por no recopilar tus datos, ya que la mayoría de las empresas en línea dependen en gran medida de Bing y Google para indexar tu contenido y dirigir el tráfico a tu sitio.

Los sitios web con datos valiosos querrán buscar formas de monetizar el uso de sus datos u optar por no participar en el entrenamiento del modelo de IA para evitar perder tráfico web e ingresos publicitarios debido a ChatGPT y sus plugins. Si deseas excluirte, necesitarás técnicas avanzadas de detección de bots, como huellas dactilares, detección de proxy y análisis de comportamiento, para detener los bots antes de que puedan acceder a tus datos.

Las soluciones avanzadas para la protección contra fraudes y bots aprovechan la IA y el aprendizaje automático (ML) para detectar y detener bots desconocidos desde la primera solicitud, manteniendo tu contenido a salvo de rastreadores de LLM, plugins desconocidos y otras tecnologías de IA en rápida evolución.

Nota: Este artículo está escrito y aportado por Antoine Vastel, PhD, jefe de investigación de DataDome.

Jesus_Caceres