Fichero robots.txt: Que es y como se configura bien

fichero robots.txt

¿Qué es el fichero robots.txt? y ¿para que sirve el fichero robots.txt? son quizás las preguntas más comunes en la cabeza de alguien que acaba de escuchar sobre el fichero robots.txt. En este artículo trataré de responder a ambas de una manera asequible para que después al explicar como configurarlo todo esté claro.

¿Qué es el fichero robots.txt?

Es un simple archivo de texto como el que tu o yo podemos crear en Windows mediante click derecho y crear documento de texto. Para que funcione basta con colocarlo en la raíz del servidor y listo.

Funciones del robots.txt

El fichero robots.txt se usa para informar a los robots de los buscadores sobre unas pautas a seguir. Hay que destacar que los robots pueden ignorar estas pautas, aunque suelen seguirlas. Entre las pautas que puedes indicar están el permitir el acceso solo a algunos robots y el rastrear o no alguna dirección en particular.

Configurar robots.txt

configurar robots.txtPara configurar correctamente el fichero robots.txt hay que hacer uso de “indicadores” (o instrucciones) e informar con ellos a los rastreadores las pautas.

User-agent:

Se usa para indicar que robots pueden rastrear. Aunque a priori parezca interesante conceder el acceso a todos a veces es mejor no hacerlo. Un ejemplo de indicador que concede el acceso a todos los robots:

User-agent: *

Los nombres de los robots pueden encontrarse por Google. Los más usados son bingbot(Bing) y Googlebot(Google).

Allow:

Indica las direcciones a las que los robots pueden acceder. Para que funcione es obligatorio indicar una dirección a rastrear. Como lo normal es querer que los buscadores indexen una web entera menos un par de archivos o carpetas yo recomiendo optar por no usar este indicador y usar el disallow.

Un ejemplo para un servidor en el que solo queremos que se rastré un blog podría ser:

Allow: /blog/

Disallow:

Hace lo inverso a “Allow”, este indicador informa sobre que direcciones no quieren ser rastreadas. Como con “Allow” también es necesaria una dirección para que funcione. Lo más normal es usarlo para evitar que sean rastreadas direcciones para administración, carpetas de scripts/plantillas y resultados de búsquedas locales. Un ejemplo podría verse en el robots.txt de esta web o en las siguientes líneas:

Disallow: /wp-admin/
Disallow: /admin/

 Crawl-delay:

Este te permitirá cambiar la frecuencia de rastreo de los robots. No es muy común pero puede ser útil en algunos casos. El tiempo de espera viene dado en segundos.

Crawl-delay: 30

 Sitemap:

Sí, se puede indicar la dirección de uno o más sitemaps a los robots para que sean rastreados. Usarlo es tan fácil como en el siguiente ejemplo:

Sitemap: /sitemap/

 Ejemplo de fichero robots.txt

User-agent: *
Allow: /blog/
Disallow: /blog/admin/
Sitemap: /blog/sitemap/

Este fichero robots.txt permite que cualquier robot pueda entrar, que solo sea rastreado el blog, que no se indexe la capeta admin e indica que existe un sitemap en la dirección /blog/sitemap/

Ejemplo de robots.txt para Blogger

El el fichero robots.txt para Blogger vamos a centrarnos en permitir a los buscadores indexar todo menos los resultados de búsqueda y declarar un sitemap. Según mi opinión el robots.txt ideal para Blogger es:

User-agent: *
Disallow: /search
Sitemap: http://www.tudominio.com/sitemap.xml

Recuerda cambiar “www.tudominio.com” por tu dominio y ya tendrás el fichero robots.txt con una configuración óptima.

Ejemplo de robots.txt para WordPress

En el caso de WordPress es mucho más sencillo, simplemente debemos indicar que no queremos que se indexe las carpetas wp-admin y wp-includes. El fichero robots.txt en WordPress quedaría tal que así:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Desindexado de una web

A veces por algunas razones necesitamos que una web sea desindexada de uno o varios buscadores, para ello también se usa el fichero robots.txt. Si por ejemplo queremos desindexar una web de Google tendríamos que usar el siguiente robots.txt:

User-agent: Googlebot
Disallow: /

Conclusiones

El archivo robots.txt bien configurado es la perfecta herramienta para definir que partes y cuales no queremos indexar, pero a su vez es una pesadilla si está mal configurado. Es por esto que es mejor no tener un robots.txt que tenerlo mal configurado.

Un saludo 😉

 

Ingeniero industrial y administrador de esta página web. En su espacio virtual, Axl comparte de manera relajada y accesible su interés por temas como negocios, lean manufacturing e inteligencia empresarial. Explora con él ideas prácticas y descubre cómo aplicarlas en tu propio camino profesional.
Entradas creadas 109

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Publicaciones relacionadas