¿Qué es el robots.txt?

¿Qué es el archivo robots.txt?

Este archivo para mí es muy importante y suelo trabajarlo bastante, por definición es:

Definición de robots.txt: Un archivo de texto donde le damos una serie de reglas sobre nuestra web a los buscadores para FACILITAR o limitar unas acciones sobre la misma.

Fallos comunes en el robots.txt

  • Aclaración que a muchos no les queda claro: Bloquear una url en robots no implica que no se indexe la url aunque si el contenido, evidentemente si entras a la url verás el contenido.
  •  Solución: Si no queremos que indexe, yo uso “doble capado”, en esa URL que no quiero indexar, bloque por robots, esto hace que no lea la url (explico más abajo) y uso la meta noindex (ese contenido no se va indexar).

¿Qué tener en cuenta en éste archivo?

Veo muchos que usan siempre el comando, Disallow, que sirve para indicar que no debe pasar por ahí, puede ser un directorio, url específica etc… pero apenas usan el comando Allow, cuando es tan importante uno como el otro, lo explico:

  • No quiero que rastree este directorio entero:
    Disallow: /wp-content/
  • Pero si quiero que dentro de esa carpeta permitir esta parte o este archivo:
    Allow: /wp-content/uploads/

He visto gente que usa el robots para bloquear en wordpress los pingbacks y trackbacks (El primero es para que te avisen y avisar a otros cuando enlazas o te enlazan desde un artículo y el segundo lo mismo pero manual y suelen usarse mucho para spam y ataques tipo DDOS ) tan molestos desde el robots, y sinceramente ya lo tiene implementado para que indicar algo que lo podemos hacer automático WordPress > ve a Ajustes > Comentarios y quita el check de “Permitir notificaciones de enlace desde otros sitios”

Si queréis ver mi robots.txt  lo tenéis aquí donde también bloqueo ciertos bots y te recomiendo esta web donde podrás ver la lista de robots.

¿Por qué es importante?

Es muy importante para indicar a los bots la mejor ruta para entender nuestro site, entre otras cosas mejorar el crawl budget permitiendo optimizarlo de forma que se aproveche mejor en los directorios que nos interesan y no que pierdan parte en zonas que no queremos posicionar. Si quieres aprender a cómo optimizar el crawl budget ahí lo explico.

Vale ahora tenemos claro cómo quedaría un robots.txt y la importancia de éste.

Share This