⚡ Meta Robot La Guía Definitiva 🚀

Meta robot es una metaetiqueta HTML también llamada en ingles meta robot tag que sirve para dar instrucciones a las arañas de los buscadores que se encargan del rastreo e indexación de la página. Con etiqueta meta robots damos instrucciones especificas para que indexen o no una página, o para que sigan o no los enlaces hacia otras páginas, impidiendo su rastreo.

Para qué sirve la meta robot

La meta robots sirve para controlar la forma en que se debe indexar una página y la forma de mostrarla a los usuarios en la página de resultados de búsqueda.

Uso de la meta robot.

Habitual se aplica para indicar directivas negativas, pues el rastreador las entiende como positivas en caso de no indicar lo contrario. Por defecto ya son interpretadas en positivo.

Es obvio, pero no debemos especificar ninguna metaetiqueta robots en el caso de que queramos que los buscadores indexen la página. Por eso hay que estar muy atentos a no incluirlas o quitarlas en aquellos portales que las usan en pruebas y que van a lanzar la versión definitiva que quieren indexar, para que el rastreo se lleve a cabo sin problemas.

Dónde y cómo se implementa la metaetiqueta robots

La ubicación de la meta robots debe hacerse dentro de la sección <head> de la página en cuestión.

Además, necesita contener dos atributos, name y content para poder funcionar correctamente.

Herramientas para controlar la meta robot tag

Una de las opciones es la X-robot: una poderosa herramienta muy versátil que sirve para controlar los bots de los motores de búsqueda. Funciona de manera diferente a robots.txt y a la meta robot tag.

Te ofrece la posibilidad de controlar la manera en la que el bot hace el crawling al contenido de tu sitio web. Lo Cierto es que ninguna otra herramienta permite tal control, ni siquiera robot.txt y el meta robot tag.

Es interesante que esta herramienta no haya cobrado mucha popularidad entre los SEOs y esto es debido a que en su mayoría, sobre todo los que inician en el mundo SEO no saben o como funciona o no conocen su capacidad, sin embargo en esta guía le daremos total sentido a cada una de las funciones del X-robot-tag.

Comparando el X-robot-tag con robot.txt y el meta robot tag

El uso de la meta robot tag y el robot.txt te hace pasar por ciertas limitaciones, la siguiente tabla de comparación hace posibles realizar una revisión de las limitaciones de estas dos herramientas frente al x-robot-tag.

Robot.txt

En la primera comparación es de notar que el robot.txt se puede realizar el bloqueo de algunos bot de motores de búsquedas tales como el googlebot y otros con el objetivo de evitar el crawling y la indexación de casi todo tipo de contenidos o archivos en tu web. Tales como .html, archivos multimedia de audio o video e incluso documentos.

Meta Robot Tag

Cuando usas el meta robot tag, es posible también bloquear los bots de Google y de los motores de búsqueda, pero no se puede bloquear todo el contenido de la web como imágenes, videos, audio o documentos debido a que estos no están basados en html y por lo tanto no contiene la etiqueta <head>.

En la segunda comparación te darás cuenta de que a veces es necesaria bloquear al buscado para que no indexe alguna página o contenido en específico al utilizar el robot.txt un enlace “cache” no se podrá encontrar en el resultado de Google. Sin embargo debes tener en cuenta que aparecerá en los motores de búsqueda como un “enlace de referencia”.

En la parte superior se ha utilizado la sintaxis siguiente para ocultar el contenido con robot.txt

User-agent: *

Disallow: /wp-

Disallow: /2009/

Para páginas en HTML se puede utilizar el meta robot tag para bloquear una página completa y prevenir que se muestre en los resultados de la búsqueda. Esto se puede lograr con la etiqueta “nonachieve” en la sección <head> de la siguiente forma.

En la tercera comparación se demuestra que tanto con el robot.txt y el meta robot tag se hace imposible prevenir que se indexen y capturen el sitemap.xml de tu página web y robot.txt.

Esto sucede porque no puedes bloquear el robot.txt en sí mismo. Y aunque es posible que puedas bloquear el acceso a él usando las directivas .htaccess entonces estarías prácticamente bloqueando a los motores de búsqueda del acceso entero a tu sitio web. Lo mismo sucede si bloqueas el sitemap.xml en el robots.txt ya que estarías evitando que los motores de búsqueda transmitan contenido o información de tu página web, lo que realmente resulta en beneficio para nuestros objetivos. Adicionalmente a esto en la consola del webmaster tool de Google tendrías un mensaje que diría que el sitemap.xml está bloqueado por el robot.txt y el Googlebot no puede tener acceso, por lo que no pueden tener información de tu sitio.

La solución a estos problemas es el x-robot-tag con lo cual serás capaz de hacer lo siguiente.

Podrás ser capaz de evitar que los motores de búsqueda capturen cualquier tipo de contenido, sin importar que sea html, video, audio, imágenes o documentos.
Puedes bloquear a los motores de búsqueda y evitar que indexen el contenido o que elijas sin importar su clase sin dejar bugs o errores.
Tendrás la capacidad de bloquear a los buscadores de indexar tu sitemap.xml y tu robots.txt

El X-robot-tag tiene muchas más aplicaciones y hoy podrás descubrir algunas de ellas en esta guía. Sigue leyendo.

Si eres un SEO junior o simplotamente eres ajeno a este protocolo, es posible que te sientas un poco abrumado. Por eso te explicaremos que es el X-robot-tag.

El x-robot-tag puede ser encontrado en el encabezado de respuesta HTTP. Este encabezado de respuesta se encuentra en todo sitio web o todo contenido. El familiarizarnos en cómo funciona e interactúa este encabezado de respuesta HTTP nos ayudara a entender cómo utilizarlo.

En primer lugar supongamos que deseas visitar cierto sitio web en específico y te encuentras frente al explorador de tu preferencia. Supongamos www.uncactus.com

En segundo lugar te sitúas en la barra y escribes la dirección web.

En tercer lugar justo después de presionar “enter” tu explorador envía una petición HTTP al Sitio www.uncactus.com que acabas de introducir

En cuarto lugar el servidor del sitio web www.uncactus.com enviara un encabezado de respuesta HTTP que contiene información importante del sitio lo que puede incluir el X-robot-tag.

Si deseas dar un vistazo a las peticiones y respuestas de HTTP en las páginas web puedes instalar en tu explorador Firefox la siguiente herramienta : http://getfirebug.com/ se llama Firebug y su funcionamiento es bastante intuitivo. Solo instala y luego dirígete a la página que deseas verificar. Escríbela directamente en la barra de tu explorador. Si la barra en la parte inferior de tu explorador permanece vacía, presionar recarga la página y veras la cantidad de datos en la parte inferior. En la sección “net” aparece los datos donde te debes enfocar expande la ventana y podrás encontrar las cabeceras de respuesta HTTP. Allí puedes validad el x-robot-tag.

Si se encuentra de la siguiente forma “X-robot-tag: nonachieve” significa que les está diciendo al motor de búsqueda que no muestre esta página web en los resultados de búsqueda.

Introducción básica a la sintaxis del X-robot-tag

Tal como el robot.txt el x-robot-tag tiene su propia sintaxis y es importante que la comprendas e implementes de la forma correcta.

La mejor y más completa guía de sintaxis para este robot se encuentra en el siguiente documento https://developers.google.com/search/reference/robots_meta_tag?csw=1

Igualmente aquí en nuestra guía puedes encontrar los más utilizados y sus funciones.

1. Prevenir que los motores de búsqueda indexen la página

X-Robots-Tag: noindex

2. Prevenir que los motores de búsqueda capturen la página

X-Robots-Tag: noarchive

3. Prevenir solamente que el googlebot indexe los links de la página

X-Robots-Tag: googlebot: nofollow

4. Instruir al Googlebot de no indexar la los links y la página en si misma

X-Robots-Tag: googlebot: noindex, nofollow

<h2> Algunos tips y recomendaciones al utilizar el X-robot-tag </h2>

El X-robot-txt puede ser implementado utilizando lenguaje PHP o utilizando .htaccess en un servidor apache.

Utilicemos lenguaje PHP para implementar el x-robot-tag y decirle al buscador que no indexe ni la página ni los enlaces.

<?php

//La función de cabecera (header) debe ser insertada en la parte superior de tu página, luego todo el código php o html.

header(“X-Robots-Tag: noindex, nofollow”, true);

//Aquí tu codigo PHP

Supongamos que tienes un sitio web PHP y estas preocupado de que los buscadores indexen los resultados de tu búsqueda. Y la página de búsqueda tiene una plantilla php. Entonces debes de editar e insertar el código X-robot-tag en tu plantilla PHP con cuidado dejando abajo el código PHP. Igualmente puedes verificar que este correcto validando con firebug los resultados.

Siempre debes de tener mucho cuidado ya que un solo error podría dejar a tu página web completa fuera de la indexación

Usando el x-robot-tag en un servidor apache

Si tienes un servidor apache entonces puedes implementar el x-robot-tag en el .htaccess directamente.

Supongamos que tienes un sitio web que no deseas indexar en los motores de búsqueda, entonces debes dirigirte al Root o raíz del directorio de tu sitio web y descargar el archivo .htaccess y debes añadir la siguiente línea:

Header set X-Robots-Tag “noarchive”

Otra forma útil de implementar el x-robot-tag es cuando deseas dejar fuera del index archivos tales como documentos PDF, archivos .mp3, y otros. Debes escribir la siguiente línea.

Header set X-Robots-Tag “noarchive”

</Files>

Si deseas evitar que tu sitemap.xml y el robots.txt aparezcan en tu web pero que todavía el googlebot pueda transmitir contenido puedes utilizar lo siguiente:

Header set X-Robots-Tag “noindex”

</Files>

Header set X-Robots-Tag “noindex”

</Files>

El X-robot-tag puedes ser abusado por algunos spammers mediante la utilización del siguiente código que les permite hacer creer al enlace de su parthner que la pagina esta indexada o es seguida por google cuando en realidad está en “nofollow”

Header set X-Robots-Tag “nofollow”

</Files>

Si es el caso de que aun estas hacienda intercambio de enlaces y esperas algún “link juice” de ellos debes asegurarte por la respuesta de la cabecera http que no esté bajo la etiqueta X-robots-tag “nofollow.”

<h2> Algunas recomendaciones para la Meta Robot </h2>

Es recomendable que solo utilices el x-robot-tag si estás realmente familiarizado con el lenguaje PHP o con el .htaccess de los servidores apache. Debes ser extremadamente cuidadoso sobre todo cuando estas aplicando la etiqueta x-robot-tag. Entonces la mejor recomendación es que permanezcas apegado al Robot.txt y el meta robots tag. Y que solo utilices el x-robot-tag para las cosas que realmente no puedas realizar con el robots.txt

Siempre puedes verificar el estado del Robots.txt desde el Webmaster tool de google, sin embargo la x-robot-tag no la puedes validad desde allí.

Cabe destacar por último que el x-robot-tag puede aplicarse para el servidor apache con el archivo .htaccess solamente si el servidor de host tiene activo la función HEADER o (cabecera) es necesario que antes de implementarlo tengas claro este punto con el proveedor de servicio ya que no todos los servicios de hosting lo tienen activo.