Contiene información sobre que carpetas deben ser indexadas por los buscadores y cuáles no
El fichero robots.txt es un pequeño archivo que se encuentra en la carpeta raíz de tu sitio Joomla (normalmente con el nombre robots.txt.dist, por lo que se deberá renombrar a robots.txt). El archivo contiene instrucciones sobre qué deben indexar y qué dejar fuera los motores de búsqueda.
Algunas personas confunden el archivo robots.txt con el archivo .htaccess . La diferencia es significativa. El primero sólo da instrucciones a los motores de búsqueda - y en teoría la mayoría de los motores de búsqueda las respetan. El archivo robots.txt no se utiliza para cualquier cosa relacionada con la seguridad. Sin embargo, puede tener un impacto en la optimización para los motores de búsqueda (SEO).
Por otro lado, el archivo .htaccess se utiliza para configurar los ajustes del servidor Web Apache, redirigir las tareas relacionadas con las direcciones URL, temas de seguridad y otros servicios, como por ejemplo optimizar la velocidad del sitio.
El archivo robots.txt y el SEO
Como he mencionado, el archivo robots.txt está en la carpeta raíz del sitio. Contiene información sobre que carpetas deben ser indexadas por los buscadores y cuáles no. También puede incluir información sobre tus mapas XML del sitio.
Hay varios consejos que recomendaría sobre SEO y el archivo robots.txt en Joomla:
1. Elimina la exclusión de imágenes
Por razones que no entiendo, el archivo robots.txt está configurado en Joomla por defecto para excluir la carpeta de imágenes. Eso significa que las imágenes no serán indexadas por Google y no se incluirán en su búsqueda de imágenes. Y esto es algo que se desea (la indexación), ya que añade otro nivel a la visibilidad en los motores de búsqueda del sitio. Este es el archivo robots.txt.dist de Joomla por defecto:
# If the Joomla site is installed within a folder such as at
# e.g. www.example.com/joomla/ the robots.txt file MUST be
# moved to the site root at e.g. www.example.com/robots.txt
# AND the joomla folder name MUST be prefixed to the disallowed
# path, e.g. the Disallow rule for the /administrator/ folder
# MUST be changed to read Disallow: /joomla/administrator/
#
# For more information about the robots.txt standard, see:
# http://www.robotstxt.org/orig.html
#
# For syntax checking, see:
# http://tool.motoricerca.info/robots-checker.phtml
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/ ↠esta carpeta debería estar borrada o renombrada
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Para cambiar esto, editamos el archivo robots.txt.dist y quitaremos totalmente la línea que dice:
Disallow: /images/
Al eliminar esta línea, Google comenzará a indexar las imágenes en el próximo rastreo de tu sitio.
Una vez guardado, para que sea efectivo debemos renombrarlo a robots.txt
2. Agrega una referencia al archivo sitemap.xml
Para una mejor indexación en Google es recomendable tener un archivo sitemap.xml, por lo que será bueno incluir la siguiente línea en tu archivo robots.txt:
sitemap: http://www.dominio.com/sitemap.xml
Naturalmente, esta línea debe ser ajustada para adaptarla a tu dominio y al nombre de tu archivo XML sitemap. En mi caso, yo hago el sitemap manualmente y para Somos Apañados la línea tiene este aspecto:
sitemap: http://www.xn--apaados-6za.es/sitemap.xml
3. En el caso de que utilices Google Adsense, y según sus recomendaciones, el archivo robots.txt para Joomla! te debería quedar parecido al que yo uso:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
# No exclusions found, disallow nothing except:
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /language/
Disallow: /libreries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
User-agent: Googlebot-News
Disallow:
User-agent: Googlebot-Image
Disallow:
sitemap: http://www.xn--apaados-6za.es/sitemap.xml
4. Si en algunas ocasiones queremos, por el motivo que sea, que una determinada URL no sea seguida por los buscadores también podremos incluirla en este archivo de este modo:
Disallow: /url-a-bloquear.html
Sin incluir la primera parte del nombre del dominio (p.ej. no se incluiría http://www.xn--apaados-6za.es/ ). También se pueden incluir agrupaciones de páginas usando diferentes operadores, pero esa es otra historia que se escapa de este pequeño manual del archivo robots.txt para Joomla!
Una vez hecho todo esto el archivo robots.txt puede vivir felizmente en paz en la carpeta raíz de tu sitio.
Ver una actualización de este artículo con las nuevas directrices de Google: Googlebot no tiene acceso a archivos CSS y JS en Joomla!, solución