WordPress no trae consigo un archivo robots.txt, para aquellos que no saben cual es el fin de este archivo se los explicare de de la forma mas sencilla que pueda: El archivo robots.txt indica a los buscadores que archivos y carpetas deben indexar y que no deben indexar a la hora de mostrar resultados de búsquedas, por ejemplo: si en una carpeta tenemos información personal que no deseamos que sea indexada por los buscadores, entonces la deshabilitamos mediante una serie de comandos que podemos añadir dentro del archivo robots.txt.
En el caso de WordPress contamos con dos carpetas que no veo por que los buscadores deban indexarlas ya que cuentan con información del panel de administración, esta son wp-admin y wp-include, mismas que pueden ser excluidas añadiendo las siguientes lineas al archivo robots.txt:
Disallow: /wp-admin/
Disallow: /wp-includes/
Algunos administradores de sitios webs han visto más conveniente deshabilitar cualquier carpeta que empiece con las letras «wp-«, a mi criterio esto es un poco extremo por que quizás hayan algunas imágenes que nos gustaría que sean indexadas por los buscadores (como el de Google), entonces deberemos añadir la siguiente linea:
User-agent: Googlebot-Image
Allow: /
WordPress tiene un problema bastante considerable de cara al contenido duplicado ya que por defecto se indexan todos los feeds y trackbacks, para evitar dicho problema debemos añadir unas cuantas líneas al archivo robots.txt:
Disallow: /?s=
Disallow: /?ref=
Disallow: /feed
Disallow: /comments/feed
Disallow: /feed/$
Disallow: /*/feed/$
Disallow: /*/feed/rss/$
Disallow: /*/trackback/$
Disallow: /*/*/feed/$
Disallow: /*/*/feed/rss/$
Disallow: /*/*/trackback/$
Disallow: /*/*/*/feed/$
Disallow: /*/*/*/feed/rss/$
Disallow: /*/*/*/trackback/$
Por ultimo pero no menos importante, no se debe dejar de lado el facilitar la entrada al Sitemap en nuestro blog, entonces añadiremos la siguiente linea:
Sitemap: http://www.tublog.com/sitemap.xml
Eso es todo lo básico referente a lo que debe tener un archivo robots.txt para un sitio hecho con WordPress, para aquellos que aun no le agarraron el hilo, les dejo un código guía que podrán utilizar o editar a gusto:
User-agent:* Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /?s= Disallow: /?ref= Disallow: /feed Disallow: /comments/feed Disallow: /feed/$ Disallow: /*/feed/$ Disallow: /*/feed/rss/$ Disallow: /*/trackback/$ Disallow: /*/*/feed/$ Disallow: /*/*/feed/rss/$ Disallow: /*/*/trackback/$ Disallow: /*/*/*/feed/$ Disallow: /*/*/*/feed/rss/$ Disallow: /*/*/*/trackback/$ User-agent: Googlebot-Image Allow: / Sitemap: http://www.tublog.com/sitemap.xml
Recuerda que el archivo robots.txt debe estar en el directorio raíz de tu sitio web.
Cómo probar el archivo robots.txt de WordPress y enviarlo a Google Search Console
Una vez que creado y cargado tu archivo robots.txt de WordPress, puedes usar Google Search Console para probarlo en busca de errores. Search Console es una colección de herramientas que Google ofrece para ayudarte a monitorear cómo se muestra tu contenido en los resultados de búsqueda. Una de estas herramientas es un verificador de robots.txt, en teoría, puedes enviar una URL al Probador de robots.txt y la herramienta consulta tu archivo robots.txt como lo haría el robot de Google y comprueba que la URL esté bloqueada correctamente.
Entonces:
- Abre la herramienta para probar tu sitio (sigue el siguiente enlace). A continuación, busca en el código de tu archivo robots.txt si hay advertencias de sintaxis y errores de lógica destacados. Puedes ver el total de advertencias y errores detectados en tu archivo justo debajo del editor.
- Escribe la URL de una página de tu sitio en el cuadro de texto que hay en la parte inferior de la página.
- Selecciona el user-agent que quieras simular en la lista desplegable que hay a la derecha del cuadro de texto.
- Haz clic en el botón PROBAR para probar el acceso.
- Comprueba si en el botón PROBAR ahora pone ACEPTADA o BLOQUEADA para averiguar si los rastreadores web de Google no pueden acceder ahora a la URL que has introducido.
- Edita el archivo en la página y vuelve a probarlo si hace falta. Recuerda que los cambios que haces en esta página no se guardan en tu sitio. Consulta el siguiente paso.
- Copia los cambios en el archivo robots.txt de tu sitio. Esta herramienta no realiza cambios al archivo real de tu sitio web, sino que solo lo prueba con la copia alojada en la herramienta.
Un archivo robots.txt de WordPress bien configurado te permitirá determinar exactamente cómo interactúan esos robots con tu sitio. De esta forma, podrán mostrarle a los buscadores contenido más relevante y útil.
@machi conca: Lo copias en el directorio root de tu sitio web, es decir, donde se encuentra la pagina principal de tu sitio web.
Para un novato como yo es muy difícil. Necesito saber donde guardar robots.txt. Ya copié el ejemplo que vos das…..y ahora que hago??
un saludo.
—
Machi conca
@machi conca: El listado de las paginas de tu sitio web, si usas WordPress existen plugins que lo generan de forma automática, como por ejemplo el plugin Google XML Sitemaps Generator.
Hola: y que hay que poner em el sitemap.xml?
Gracias de antemano.
—
Machi Conca.
Te entiendo, yo también odio el contenido duplicado, sobre todo porque este contenido duplicado también consume ancho de banda que significa costos para nosotros.
A lo que me refiero es que es muy importante para nosotros el que googleblog search indexe lo antes posible nuestros post’s; y privarle la entrada al feed (según entiendo es lo primero que lee de forma casi inmediata) lo retardará aun cuando pudiera entrar al post utilizando la información del sitemap.
Pero, tienes razón, al leer la url del post en el sitemap, quedará indexado eventualmente.
Nota:
Perdona las faltas de ortografía en el primer post (que conste fueron errores de tipeo 😛 ).
@Renegado: no necesariamente, lo que trato es deshabilitar el feed y el trackback para evitar el contenido duplicado.
En si el que se encargara de hacer que Google indexe tus temas en este caso seria el archivo sitemap.
Me parece que no permitiras googleblogs search indexe tus post si no colocas un Allow: /feed/$ o elimina ese Disalow: /feed/$