Clicky

¿Qué es un rastreador web y cómo funciona?

web crawler

Los rastreadores web visitan todos los días millones de páginas y las agregan a los motores de búsqueda

¿Alguna vez buscaste algo en Google y te preguntaste: "¿Cómo sabe dónde buscar?" La respuesta son los "rastreadores web" (web crawlers), que buscan en la web y la indexan para que puedas encontrar cosas fácilmente en línea. Te lo explicamos.

Motores de búsqueda y rastreadores

Cuando realizas una búsqueda utilizando una palabra clave en un motor de búsqueda como Google o Bing, el sitio examina billones de páginas para generar una lista de resultados relacionados con ese término. ¿Cómo estos motores de búsqueda tienen exactamente todas estas páginas archivadas, saben cómo buscarlas y generan estos resultados en segundos?

La respuesta son los rastreadores web, también conocidos como arañas (spiders). Estos son programas automatizados (a menudo llamados "robots" o "bots") que "rastrean" o navegan por la web para que puedan agregarse a los motores de búsqueda. Estos robots indexan sitios web para crear una lista de páginas que eventualmente aparecerán en los resultados de búsqueda.

Los rastreadores también crean y almacenan copias de estas páginas en la base de datos del motor, lo que le permite realizar búsquedas casi al instante. También es la razón por la que los motores de búsqueda a menudo incluyen en sus bases de datos versiones en caché de los sitios.

Mapas del sitio y selección

indexación web

Entonces, ¿Cómo eligen los rastreadores qué sitios web rastrear? Bueno, el escenario más común es que los propietarios de sitios web quieran que los motores de búsqueda rastreen sus sitios. Pueden lograrlo solicitando a Google, Bing, Yahoo u otro motor de búsqueda que indexe sus páginas. Este proceso varía de un motor a otro. Además, los motores de búsqueda seleccionan con frecuencia sitios web populares y bien vinculados para rastrear mediante el seguimiento de la cantidad de veces que una URL está vinculada en otros sitios públicos.

Los propietarios de sitios web pueden utilizar ciertos procesos para ayudar a los motores de búsqueda a indexar tus sitios web, como cargar un mapa del sitio. Este es un archivo que contiene todos los enlaces y páginas que forman parte del sitio web. Normalmente se usa para indicar qué páginas te gustaría indexar.

Una vez que los motores de búsqueda ya hayan rastreado un sitio web una vez, lo volverán a rastrear automáticamente. La frecuencia varía según la popularidad de un sitio web, entre otras métricas. Por lo tanto, los propietarios de sitios suelen mantener mapas de sitios actualizados para que los motores sepan qué sitios nuevos indexar.

Los robots y el factor de cortesía

archivo robots.txt

¿Qué sucede si un sitio web no desea que algunas o todas sus páginas aparezcan en un motor de búsqueda? Por ejemplo, es posible que no desees que las personas busquen una página exclusiva para miembros o que vean su página de error 404. Aquí es donde entra en juego la lista de exclusión de rastreo, también conocida como robots.txt. Este es un archivo de texto simple que dicta a los rastreadores qué páginas web deben excluir de la indexación.

Otra razón por la que robots.txt es importante es que los rastreadores web pueden tener un efecto significativo en el rendimiento del sitio. Debido a que los rastreadores esencialmente descargan todas las páginas de un sitio web, consumen recursos y pueden causar ralentizaciones. Llegan en momentos impredecibles y sin aprobación. Si no necesitas que tus páginas se indexen repetidamente, detener los rastreadores podría ayudar a reducir parte de la carga de tu sitio web. Afortunadamente, la mayoría de los rastreadores dejan de rastrear determinadas páginas según las reglas del propietario del sitio.

Magia de metadatos

metadatos

Debajo de la URL y el título de cada resultado de búsqueda en Google, encontrarás una breve descripción de la página. Estas descripciones se denominan fragmentos o snippets. Es posible que observes que el fragmento de una página en Google no siempre se alinea con el contenido real del sitio web. Esto se debe a que muchos sitios web tienen algo llamado "metaetiquetas", que son descripciones personalizadas que los propietarios de sitios agregan a sus páginas.

Los propietarios de sitios a menudo presentan tentadoras descripciones de metadatos escritas para que quieras hacer clic en un sitio web. Google también enumera otra metainformación, como precios y disponibilidad de stock. Esto es especialmente útil para quienes ejecutan sitios web de comercio electrónico.

Tu búsqueda

La búsqueda en la web es una parte esencial del uso de Internet. Buscar en la web es una excelente manera de descubrir nuevos sitios web, tiendas, comunidades e intereses. Todos los días, los rastreadores web visitan millones de páginas y las agregan a los motores de búsqueda. Si bien los rastreadores tienen algunas desventajas, como ocupar los recursos del sitio, son invaluables tanto para los propietarios como para los visitantes.

Jesus_Caceres