Estas semanas el micromundo del SEO ha estado convulso, aunque realmente siempre lo está. Se debe especialmente a que Google ha anunciado «modificaciones» relevantes en Robots.txt. Los dos cambios más significativos nacen a través de la idea de la compañía para crear un auténtico estándar con este fichero y la manera en la que los bots lo comprenden. Eso sumado a la confirmación de que algunas directivas no tienen impacto real en Googlebot.
Una de estas directivas es el noindex dentro del archivo robots. Desconozco por qué alguien seguiría utilizando esto en 2019, pero aún hay sitios que lo implementan. Además, noindex a través de robots.txt no es la única directriz que va a desaparecer.
Cómo estas reglas nunca han sido documentadas por Google, su uso y el cómo afectan a Googlebot es muy bajo. Usarlas crea errores que dañan la presencia de los sitios en los resultados de búsqueda de una manera que creemos que no es intencional por parte de los webmasters.
Contenidos
Cuáles son las opciones para no indexar contenido en robots.txt
Realmente no es que esto haya cambiado mucho, pero con el anuncio de Google muchos falsos mitos sobre el uso de este fichero han caído como un castillo de naipes. Las reglas actuales para no indexar contenido o eliminarlo de los resultados de búsqueda siguen siendo las de siempre:
Utilizar NoIndex en encabezados y HTML
Por lo general y asumiendo que a día de hoy la gran mayoría de usuarios está usando un CMD como WordPress, Joomla, PrestaShop o Magento, esto se hace fácil a través de plugins y complementos como Yoast SEO, All In One SEO Pack y sus homólogos para el resto de gestores de contenido.
En caso de no contar con plugins de SEO o tener un proyecto personalizado, siempre puedes acudir a modificar el código de cada URL para que el encabezado mande la señal a Google.
Noindex mediante htaccess
Tienes la opción de bloquear determinadas URLS o directorios a los bots mediante el fichero htaccess de tu servidor. Quizá esta es una de las mejores soluciones, pero la menos flexible para mi gusto personal. Si definitivamente quieres que Google no indexe de ninguna manera una URL, esta es la mejor opción.
Otras alternativas
También puedes usar los códigos 410 o utilizar la opción Disavow a través de Search Console en caso de que el contenido ya esté indexado. Usa esta última opción con cabeza ya que no es muy recomendable abusar de ello, además siempre es mejor aplicar noindex desde las cabeceras que un Disavow.
La compañía de Mountain View asegura que salvo que indiquemos lo contrario, sigue siendo eficaz proteger con contraseña los contenidos que no queremos que su bot rastree. Lógicamente este último punto depende mucho del contexto del contenido que haya detrás.
El estándar para robots.txt
Cómo decía solo unas líneas más arriba, la gran G tiene intención de que su forma de entender el archivo robots.txt sea un estándar para la web. Tanto es así que han liberado parte de la documentación para que los webmasters puedan aprender algo mejor sobre cómo se comporta Googlebot al hacer uso del fichero, con ella incluso puedes hacer simulaciones en tu propio servidor local.
Te dejo acceso también acceso a este enlace en donde podrás encontrar la documentación oficial de Robots.txt, pero te anticipo que solo están permitidos los siguientes elementos field:
- Allow.
- Disallow.
- User-Agent.
- Sitemap.
Si nunca lo has hecho antes, es una lectura recomendada especialmente para entender los niveles de prioridad por grupos y como añadir directorios y URLS.
Buenos días José. Me ha gustado mucho tu post, pero tengo una consulta que hacerte con respecto al noindex del robots.txt. Tengo un prestashop v1.6 y antes tenía en el robots.txt el disavow para ciertas páginas que me indexaba y funcionaba perfectamente hasta hace un mes aprox. que me está diciendo que: se ha indexado, aunque un archivo robots.txt la ha bloqueado. ¿podrías decirme cómo añadir al htaccess el disavow (o noindex) para poder decir a google que no lo indexe.
La página en cuestión (más de 300 uds.) son: «inicio-sesion-tienda-online-xxxx «que, además es de sistema.
También me está cogiendo (indexando) otras con variables que antes no indexaba:
https://midominio.com/peluches/?p=7&fc=controller
Muchas gracias de antemano por tu atención y apoyo
saludos y buen día
Héctor
Hola Héctor. Viendo tu tienda (cositas chulas) veo que estás usando un robots.txt algo genérico; no entiendo porque te bloquea los amp por ejemplo. Trato de explicarte un poco o que te está sucediendo. El fichero robots no sirve para «no indexar contenido», si no para que el bot de google no pase por ese contenido. De esta manera pues no consume presupuesto de rastreo y por lo general si no visita una página no la indexa.
Pero pasa que si hay alguna URL que apunta a otra, al final googlebot se pasa por el forro el robots. En tu caso la solución es algo más simple que tocar el htacess. Primero tienes que quitar de robots los bloqueos de parámetros dinámicos para lo que vamos a hacer de acceso a Googlebot. Una vez que hayas eliminado líneas como estas:
Disallow: /*?orderby=
Disallow: /*?orderway=
Vas a Google Search Console, la versión antigua. Luego buscas un sitio que se llama Parametros de URL, y le das a siguiente (Configurar parámetros). Ahí verás todos los parámetros que Google ha detectado de tu web. Luego solo tienes que ir uno a uno (no serán muchos) y editar los que creas que te joden o duplican el contenido, te recomienddo que no te vuelvas loco quitando parámetros, solo los que veas que están en tu indice de cobertura. Espera al menos 48 horas y comprueba que se han desindexado de los resultados de búsqueda y luego vuelve a añadir las líneas que borraste al robots.txt.
Espero que te sirva de ayuda 🙂
Muchas gracias, lo he entendido perfectamente, ya lo he hecho, queda esperar a ver si funciona. Que tengas un buen día y gracias por el consejo. Saludos, Héctor
Gracias Jose por este post tan claramente explicado. Lo llevaremos a cabo.
Excelente muy buena info, era lo que necesitaba para aclarar mis dudas !