Blog

txt.robots

Google elimina la directiva NoIndex de Robots.txt ¿qué cambia ahora?

¡Compartir es ♥️!

Estas semanas el micromundo del SEO ha estado convulso, aunque realmente siempre lo está. Se debe especialmente a que Google ha anunciado  «modificaciones» relevantes en Robots.txt. Los dos cambios más significativos nacen a través de la idea de la compañía para crear un auténtico estándar con este fichero y la manera en la que los bots lo comprenden. Eso sumado a la confirmación de que algunas directivas no tienen impacto real en Googlebot.

Una de estas directivas es el noindex dentro del archivo robots. Desconozco por qué alguien seguiría utilizando esto en 2019, pero aún hay sitios que lo implementan. Además, noindex a través de robots.txt no es la única directriz que va a desaparecer.

Cómo estas reglas nunca han sido documentadas por Google, su uso y el cómo afectan a Googlebot es muy bajo. Usarlas crea errores que dañan la presencia de los sitios en los resultados de búsqueda de una manera que creemos que no es intencional por parte de los webmasters.

Cuáles son las opciones para no indexar contenido en robots.txt

Realmente no es que esto haya cambiado mucho, pero con el anuncio de Google muchos falsos mitos sobre el uso de este fichero han caído como un castillo de naipes. Las reglas actuales para no indexar contenido o eliminarlo de los resultados de búsqueda siguen siendo las de siempre:

Utilizar NoIndex en encabezados y HTML

Por lo general y asumiendo que a día de hoy la gran mayoría de usuarios está usando un CMD como WordPress, Joomla, PrestaShop o Magento, esto se hace fácil a través de plugins y complementos como Yoast SEO, All In One SEO Pack y sus homólogos para el resto de gestores de contenido.

En caso de no contar con plugins de SEO o tener un proyecto personalizado, siempre puedes acudir a modificar el código de cada URL para que el encabezado mande la señal a Google.

Noindex mediante htaccess

Tienes la opción de bloquear determinadas URLS o directorios a los bots mediante el fichero htaccess de tu servidor. Quizá esta es una de las mejores soluciones, pero la menos flexible para mi gusto personal. Si definitivamente quieres que Google no indexe de ninguna manera una URL, esta es la mejor opción.

Otras alternativas

También puedes usar los códigos 410 o utilizar la opción Disavow a través de Search Console en caso de que el contenido ya esté indexado. Usa esta última opción con cabeza ya que no es muy recomendable abusar de ello, además siempre es mejor aplicar noindex desde las cabeceras que un Disavow.

La compañía de Mountain View asegura que salvo que indiquemos lo contrario, sigue siendo eficaz proteger con contraseña los contenidos que no queremos que su bot rastree. Lógicamente este último punto depende mucho del contexto del contenido que haya detrás.

El estándar para robots.txt

Cómo decía solo unas líneas más arriba, la gran G tiene intención de que su forma de entender el archivo robots.txt sea un estándar para la web. Tanto es así que han liberado parte de la documentación para que los webmasters puedan aprender algo mejor  sobre cómo se comporta Googlebot al hacer uso del fichero, con ella incluso puedes hacer simulaciones en tu propio servidor local.

Te dejo acceso también acceso a este enlace en donde podrás encontrar la documentación oficial de Robots.txt, pero te anticipo que solo están permitidos los siguientes elementos field:

  • Allow.
  • Disallow.
  • User-Agent.
  • Sitemap.

Si nunca lo has hecho antes, es una lectura recomendada especialmente para entender los niveles de prioridad por grupos y como añadir directorios y URLS.

Google Discover
Previous Post

? Optimiza tu web para Google Discover con estos consejos

Next Post

Recicla post antiguos en redes sociales sin plugins

Recicla post antiguos en redes sociales sin plugins - En esta entrada te enseño a automatizar el rescate de post antiguos a través de Twitter y otras redes sociales sin usar plugins. Todo gracias a IFTTT.

5 thoughts on “Google elimina la directiva NoIndex de Robots.txt ¿qué cambia ahora?

  1. Buenos días José. Me ha gustado mucho tu post, pero tengo una consulta que hacerte con respecto al noindex del robots.txt. Tengo un prestashop v1.6 y antes tenía en el robots.txt el disavow para ciertas páginas que me indexaba y funcionaba perfectamente hasta hace un mes aprox. que me está diciendo que: se ha indexado, aunque un archivo robots.txt la ha bloqueado. ¿podrías decirme cómo añadir al htaccess el disavow (o noindex) para poder decir a google que no lo indexe.
    La página en cuestión (más de 300 uds.) son: «inicio-sesion-tienda-online-xxxx «que, además es de sistema.
    También me está cogiendo (indexando) otras con variables que antes no indexaba:
    https://midominio.com/peluches/?p=7&fc=controller
    Muchas gracias de antemano por tu atención y apoyo
    saludos y buen día
    Héctor

    • Hola Héctor. Viendo tu tienda (cositas chulas) veo que estás usando un robots.txt algo genérico; no entiendo porque te bloquea los amp por ejemplo. Trato de explicarte un poco o que te está sucediendo. El fichero robots no sirve para «no indexar contenido», si no para que el bot de google no pase por ese contenido. De esta manera pues no consume presupuesto de rastreo y por lo general si no visita una página no la indexa.

      Pero pasa que si hay alguna URL que apunta a otra, al final googlebot se pasa por el forro el robots. En tu caso la solución es algo más simple que tocar el htacess. Primero tienes que quitar de robots los bloqueos de parámetros dinámicos para lo que vamos a hacer de acceso a Googlebot. Una vez que hayas eliminado líneas como estas:

      Disallow: /*?orderby=
      Disallow: /*?orderway=

      Vas a Google Search Console, la versión antigua. Luego buscas un sitio que se llama Parametros de URL, y le das a siguiente (Configurar parámetros). Ahí verás todos los parámetros que Google ha detectado de tu web. Luego solo tienes que ir uno a uno (no serán muchos) y editar los que creas que te joden o duplican el contenido, te recomienddo que no te vuelvas loco quitando parámetros, solo los que veas que están en tu indice de cobertura. Espera al menos 48 horas y comprueba que se han desindexado de los resultados de búsqueda y luego vuelve a añadir las líneas que borraste al robots.txt.

      Espero que te sirva de ayuda 🙂

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Start typing to see posts you are looking for.
Sobre tu privacidad

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.

Concretamente usamos Google Analytics y Google Tag Manager para recopilar información anónima tal como el número de visitantes del sitio, o las páginas más populares.

Dejar esta cookie activa nos permite mejorar nuestra web.

Accept More info