Clicky

Google revela los 'secretos de la indexación'

Gráficos de indexación temporales de tu sitio en las Herramientas para webmasters

índice de GoogleEl martes día 24 de julio de 2012, Google ha lanzado en las Herramientas para webmasters una nueva utilidad llamada "Estado de indexación", que esquematiza mediante gráficos el número de páginas indexadas de nuestros sitios durante el último año.

Recuento total de páginas indexadas

Google dice que estas cifras son correctas (a diferencia del operador de búsqueda site:) y posteriores a la canonización. En otras palabras, si el sitio incluye una gran cantidad de URLs duplicadas (debido a cosas como parámetros de seguimiento) y las páginas incluyen el atributo canónico o Google las ha identificado de otro modo y agrupado como URLs duplicadas, este recuento sólo incluye la versión canónica y no los duplicados. También puedes obtener estos datos por la presentación de Sitemaps XML, pero sólo verás los números completos de indexación si tus Sitemaps son integrales.

 

Google WMT, estado de la indexación

Genial ¿verdad? ¡Más datos siempre son buenos! Bueno, tal vez. La clave es lo que te dicen los datos y cómo se pueden utilizar. Para dar sentido a estos datos, el mejor enfoque consiste en excluir el número de "Rastreadas alguna vez" y mirar por separado. Por lo tanto, nos quedamos con:

•  Total indexadas

•  No seleccionadas

•  Páginas bloqueadas por robots

La suma de estos tres números nos indica el número de URLs que Google está considerando actualmente. En el ejemplo anterior, Google está buscando 694.971 direcciones URL. 25.613 de ellas están bloqueadas por robots.txt, que es bastante sencillo. Esto coincide bastante con el número de URLs reportadas como bloqueado en URL bloqueadas (25.962) de las WMT. Por desgracia, se ha convertido en difícil de mirar la lista de cuáles son esas URLs . El informe de las direcciones URL ya no está disponible en la interfaz de usuario, aunque está disponible a través de la API. Eso deja a 662.242 direcciones URL fuera del índice. Lo que significa que, en este caso, un 96% de las URLs no se han seleccionado para el índice. ¿Por qué no? ¿Es esto malo? El problema con el examen de estas cifras sin contexto es que es difícil de decir.

Google WMT, estado de la indexación, vista avanzado

En mi caso que trabajo con Joomla! en la página que he puesto como ejemplo, esta alta cifra de URLs no indexadas nos da una idea de la cantidad de páginas duplicadas que genera este CMS o alguno de los componentes utilizados. Tema que ya se ha debatido en el foro de ayuda de webmasters de Google.

Digamos que estamos buscando en un sitio con 80.000 páginas indexables. ¿Porqué Google ha rastreado y catalogado sólo 32.729 páginas únicas? (En este caso, todas las no seleccionadas serían las variaciones de URLs con los códigos de seguimiento no canónicos y similares). Preguntando de otro modo, ¿Google rastrea todas las 80.000 (con las variaciones no canónicas), pero decidió que sólo 32.729 de las 80.000 eran lo suficientemente valiosas para el índice? ¿O tal vez sólo 10.000 de las URL indexadas son únicas - caso más probable-, y debido a problemas con la canonización se indexan también una gran cantidad de duplicados?.

Este problema es difícil de resolver sin un montón de otros puntos de datos para proporcionar un contexto. Google dice que:

"Una URL no puede ser seleccionada para la indexación por muchas razones, incluyendo:

•  Se redirige a otra página

•  Tiene un rel="canonical" a otra página

•  Nuestros algoritmos han detectado que su contenido es sustancialmente similar a otra URL y tomó otra dirección URL para representar el contenido."

Si las cifras no seleccionan exclusivamente el número de URLs canónicas entonces, por lo general, se puede extrapolar que para nuestro ejemplo Google ha visto 32.729 páginas únicas de nuestro sitio de 80.000 páginas y ha rastreado una gran cantidad de versiones de páginas no canónicas. Si añadimos a las cuentas las URLs que no se han seleccionado, incluyendo también las páginas que Google ha decidido no son lo suficientemente valiosas como para indexar (porque son repetitivas, están en blanco o solamente spam), entonces las cosas son menos claras.

Este 96% rastreo de Google de URLs no canónicas que no son indexados y redirigen, ¿es algo malo? No necesariamente. Pero vale la pena echar un vistazo a nuestra estructura de URLs. Las URLs no canónicas son inevitables: por los parámetros de seguimiento, criterios de ordenación y similares. Pero ¿se puede hacer el rastreo más eficiente para que Google pueda llegar a todas las 80.000 direcciones URL? Maile Ohye de Google tiene en su blog algunos buenos consejos SEO para sitios de comercio electrónico. Asegúrate de que estás haciendo pleno uso de los parámetros de Google en el manejo de las características que indican qué parámetros no deben ser rastreados en absoluto. Para los sitios de gran tamaño, la eficiencia de rastreo puede hacer una diferencia sustancial en el tráfico. Más páginas rastreadas = más páginas indexadas = más tráfico de búsqueda.

¿Rastreadas alguna vez?

¿Qué pasa con el número Rastreadas alguna vez? Estos puntos de datos debe ser examinados por separado del resto, ya que es un número acumulado durante todo el tiempo. En mi ejemplo, se han rastreado alguna vez 1.098.605 URLs. Sin embargo, Google está considerando actualmente sólo 32.729 direcciones URL. ¿Qué pasa con el otro millón largo? Este número incluye cosas como errores 404, pero para este mismo sitio, Google informa de sólo 7.000 (hace unas semanas, ahora hay casi ninguno), por lo que no da cuenta de todo. Observa que dice "alguna vez" en lugar de "actual", cosas como 404 seguro que se ha acumulado con el tiempo. Este número también incluye las direcciones URL que ya no existen y tal vez incluso cosas como archivos CSS y JS. Habría que preguntar en el foro de Google para webmasters a este respecto.

En cualquier caso, creo que de este número es mucho más difícil obtener una visión práctica. Si el número "Rastreadas alguna vez" es sustancialmente más pequeño que el tamaño de tu sitio, este número es muy útil ya que indica que sin duda existe un problema y debes buscar cuál es. Pero para los sitios que he visto hasta ahora, el número "Rastreadas alguna vez" es sustancialmente mayor que el tamaño del sitio.

El tamaño del sitio puede ser difícil de precisar, pero ¿en vuestros sitios habéis encontrando que están indexadas la mayoría de las páginas? Dejar vuestra opinión en los comentarios.

Jesus_Caceres