Robots.txt

El protocolo de exclusión de robots (robot exclusion protocol), es el estándar internacional que dictamina cómo los robots, arañas y otros elementos de internet se deben comportar cuando interactúen con tu web.

A través de uso, puedes controlar o darles las "indicaciones" adecuadas a estos programas que recorren Internet, acerca de qué pueden, y que no deben acceder en tu sitio.

El archivo, llamado robots.txt, se debe crear y guardar en el directorio raíz de tu web, de modo que sea alcanzable por cualquiera. Por ejemplo: http://www.goibela.com/robots.txt

Veamos ahora un ejemplo básico, y que de hecho es el mínimo estándar que deberías tener en tu web:

Texto plano
User-agent: *
Disallow: /cgi-bin/

Aquí le estamos diciendo a todos los robots (simbolo asterisco *), que están prohibidos de indexar el contenido del directorio cgi-bin.

También podemos especificar reglas para robots específicos. Supongamos que tenemos un directorio donde guardamos archivos de administración, y no queremos que estén a vista de cualquiera que lo busque en un buscador, pero quizás si en cualquier otro sitio:

Texto plano
User-agent: Slurp
Disallow: /admin

Podemos combinar y poner más de un directorio, o inclusive archivos específicos:

Texto plano
User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Texto plano
User-Agent: Slurp
Allow: /admin

Aquí le decimos a todos que están prohibidos de entrar a los directorios cgi-bin y admin, pero a Slurp (el robot de Yahoo) sí le estoy permitiendo el acceso al directorio admin.

Nota Importante: Si bien le estamos dando las reglas, no todos los robots las obedecen. Bien por que son mal intencionados, porque sus creadores no les enseñaron, o les enseñaron mal a interpretar el protocolo. Para evitar que estos malos robots se metan a tu sitio, debes bloquearlos a nivel del servidor.

Comentarios (1) - Domingo, 02-01-2011 23:21