Los robots que escanean nuestras páginas web se dejan llevar por la codicia por naturaleza y si quieres hacer un posicionamiento SEO barato son imprescindibles. Tratan de indexar en su motor de búsqueda la máxima información posible, así que rastrean el máximo de información posible. Pero imaginemos que hay contenido que aún no has preparado para ver la luz, ¿Cómo puedo hacer que Google no indexe páginas que aún no están acabadas?
Puedes introducir una metaetiqueta en las páginas que no quieres mostrar (la etiqueta noindex) o usar un archivo centralizado para controlar la entrada. Esta es la opción de SEO barato: el archivo robots.txt.
¿Qué es un archivo robots.txt y cómo nos ayuda a hacer un posicionamiento SEO barato?
Conocemos como spiders o arañas a las herramientas que utilizan los buscadores para rastrear tu web. Estos programas tienen un comportamiento pautado y lo primero que hacen es buscar el archivo robots.txt, y dependiendo de lo que encuentren en él, continúan en tu sitio o se van a otro.
En este archivo se concreta a Google o a cualquier otro buscador los sitios en los que puede entrar y las acciones que puede realizar y las que no. Usando los robots no admitidos puedes impedir que el buscador entre en las páginas que selecciones. Pero este es sólo uno de los múltiples usos que tiene el archivo robots.txt. También puedes usar este archivo para:
- Evitar que ciertas páginas y directorios de tu sitio puedan ser rastreados.
- Bloquear el acceso a archivos de código o utilidades
- Impedir la indexación de contenido incorrecto o copiadoen tu sitio, como copias de prueba o versiones para imprimir
- Indicar la localización de los mapas del sitio en XML para mejorar el rendimiento de la spider.
Ahora bien, hay un par de cosas que debes tener en cuenta sobre robots.txt:
- Algunos robots pueden ignorar las instrucciones contenidas en este archivo, especialmente robots maliciosos.
- El archivo es público, lo que significa que cualquiera puede verlo con sólo teclear tuweb.com/robots.txt
Por tanto, si piensas utilizar robots.txt para esconder información privada, necesitas buscar otra alternativa.
Para hacer el posicionamiento SEO barato, ¿Cómo genero un archivo robots.txt?
El archivo robots.txt no es obligatorio, sólo muy recomendable. Puedes crearlo o bien para impedir que ciertas páginas o directorios de tu sitio aparezcan en los resultados de búsqueda o para ayudar a Google a entender tu sitio web. Generar un robots.txt es relativamente sencillo. Puedes hacerlo con un blog de notas que nombrarás “robots.txt” y subirlo a raíz en tu dominio a través de FTP. El directorio raíz es el lugar donde las spiders buscan este archivo.
Lo más fácil es crearlo tú mismo, mediante el bloc de notas o un editor de código como Brackets, aunque si eres de los que prefieren herramientas de generación, puedes usar Yoast Seo, que genera un robots.txt que cumple con su cometido bastante bien. Para subir el archivo usa un cliente FTP como FileZilla o Cyberduck o bien subirlo a través de CPanel ya que este archivo pesa muy poco.
Un archivo robots.txt puede ser muy sencillo o más completo dependiendo de para qué lo usemos. El más básico suele tener esta forma:
User-agent:*
Disallow: /privado/
Lo que hacen estas instrucciones es denegar el acceso al directorio “privado” a todos los buscadores. Para ello, primero se indica que la orden va dirigida a todos los robots (User-agent: *) y por último se especifica el directorio en el que no queremos que entre. (Disallow: /privado/). De esta manera, todas las urls de /privado/ no serán visibles.
Principales comandos para robots.txt y hacer posicionamiento SEO barato.
Existe un “lenguaje” o protocolo acerca de los comandos que puedes utilizar en tu archivo robots.txt. A esto se le llama Robots Exclusion Protocol y es una sintaxis universal con normas:
- Sólo puedes utilizar los comandos permitidos (aunque algunos buscadores entienden comandos extra, pero debes asegurarte)
- Debes respetar las mayúsculas/minúsculas, la puntuación y los espacios, el buscador entenderá una cosa diferente dependiendo de ellos.
- Cada grupo User-agent/Disallow debe estar separado por una línea en blanco
- Puedes incluir comentarios mediante la almohadillao símbolo de hash (#)
A continuación te presentamos una lista de los comandos principales para comunicarte con el buscador:
- User-agent– Indica qué tipo de robot debe cumplir con las directivas que se indican en el archivo.
- Disallow– Deniega el acceso a un directorio (conjunto de páginas) o página concreta.
- Allow– Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente si esta se ha puesto antes.
- Sitemap– Indicar la ruta donde se encuentra un mapa del sitio en XML.
- Crawl-delay– Indica al robot el número de segundos que debe esperar entre cada página. Puede ser útil en casos en los que se necesita reducir la carga del servidor.
Adicionalmente, puedes utilizar comodines para aumentar o reducir la concordancia:
- Asterisco (*)– Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían “/privado*/”
- Dólar ($)– Indica el final de una URL o extensión. Por ejemplo, para indicar cualquier archivo que sea .jpg, .pdf, etc .php se utilizaría “/*.php$”.
También existen comandos y comodines cuya función es la de bloquear el paso a las spiders. Hay que tener cuidado con estos comandos para no bloquear páginas que no quieres. Para evitarlo, es mejor ser conservador y usar los más comunes que eviten que se estropee tu posicionamiento SEO barato:
- Incluir todos los robots – User-agent: *
- Especificar el robot de Google – User-agent: Googlebot
- Especificar el robot de Bing – User-agent: Bingbot
- Denegar todo el sitio – Disallow: /
- Denegar un directorio – Disallow: /directorio/
- Denegar directorios que comienzan por “algo” – Disallow: /algo*/
- Denegar una página – Disallow: /pagina-web.htm
- Denegar directorios y páginas que comienzan por “algo” – Disallow: /algo
- Denegar la extensión .gif – Disallow: /*.gif$
- Permitir un subdirectorio – Allow: /directorio/subdirectorio/
- Señalar el mapa del sitio – Sitemap: http://www.example.com/sitemap.xml
Precauciones con el archivo robots.txt
En las últimas actualizaciones de Google, este ha mencionado que penaliza denegar el acceso a los archivos CSS y JavaScript con robots.txt. Es buena idea desbloquear cualquier directorio que pueda contenerlos o, directamente, abrir paso a todas las carpetas que pueda contenerlas en tu archivo robots.txt de la siguiente manera:
User-Agent: Googlebot
Allow: /*.css$
Allow: /*.js$
Para averiguar cómo ve Google tu sitemap y tus páginas puedes ir a Search Console en el apartado Rastreo>Explorar como Google. Si no se parece a lo que ves en tu ordenador o bien surgen errores o advertencias, elimina las líneas del archivo robots.txt que bloquean el acceso a las URL. Esto te servirá, a su vez, para asegurar la validación de tu archivo.
Una pregunta de posicionamiento SEO barato técnico: ¿Sirve este archivo para desindexar páginas?
Uno de los usos más comunes para el archivo robots.txt es la desindexación de páginas de un navegador. La teoría nos dice que para sacar archivos y directorios de Google no tienes más que añadir las correspondientes directivas Disallow, ¿no es cierto?
Pues eso no es cierto. El bloqueo con Disallow impide el rastreo a los buscadores, pero no garantiza la desindexación de recursos que ya han sido indexados. Así que la página bloqueada seguirá saliendo como resultado en el buscador, pero dará 404. Pero tiene una solución: Si añades una etiqueta [Meta Robots] NoIndex a la página y permites el rastreo la borrarán la próxima vez que procesemos la URL.