Robots.txt

Categorias

Nuevos Articulos

Nuevos Comentarios

El protocolo de exclusión de robots (robot exclusion protocol), es el estándar internacional que dictamina cómo los robots, arañas y otros elementos de internet se deben comportar cuando interactúen con tu web.

A través de uso, puedes controlar o darles las "indicaciones" adecuadas a estos programas que recorren Internet, acerca de qué pueden, y que no deben acceder en tu sitio.

El archivo, llamado robots.txt, se debe crear y guardar en el directorio raíz de tu web, de modo que sea alcanzable por cualquiera. Por ejemplo: http://www.goibela.com/robots.txt

Veamos ahora un ejemplo básico, y que de hecho es el mínimo estándar que deberías tener en tu web:

Texto plano

User-agent: *

Disallow: /cgi-bin/

Aquí le estamos diciendo a todos los robots (simbolo asterisco *), que están prohibidos de indexar el contenido del directorio cgi-bin.

También podemos especificar reglas para robots específicos. Supongamos que tenemos un directorio donde guardamos archivos de administración, y no queremos que estén a vista de cualquiera que lo busque en un buscador, pero quizás si en cualquier otro sitio:

Texto plano

User-agent: Slurp

Disallow: /admin

Podemos combinar y poner más de un directorio, o inclusive archivos específicos:

Texto plano

User-agent: *

Disallow: /cgi-bin/

Disallow: /admin/

Texto plano

User-Agent: Slurp

Allow: /admin

Aquí le decimos a todos que están prohibidos de entrar a los directorios cgi-bin y admin, pero a Slurp (el robot de Yahoo) sí le estoy permitiendo el acceso al directorio admin.

Nota Importante: Si bien le estamos dando las reglas, no todos los robots las obedecen. Bien por que son mal intencionados, porque sus creadores no les enseñaron, o les enseñaron mal a interpretar el protocolo. Para evitar que estos malos robots se metan a tu sitio, debes bloquearlos a nivel del servidor.

Comentarios (1) - Domingo, 02-01-2011 23:21

Goibela.com Programación Goibela Todo sobre programación
Inicio Servidor Apache Robots.txt
Categorias PHP Servidor Apache .htaccess Robots.txt HTML JavaScript CSS estilos MySql Eclipse (android) Android studio Nuevos Articulos evitar recargar la activity al girar el movil (Android studio) Evitar que se apague la pantalla (Android studio) alertas android (Android studio) button atras en tu movil y webview (Android studio) Validar y sanear datos (PHP) Redireccionar dominio sin o con www (.htaccess) Calcular edad a partir de una fecha (Mis Funciones) Extraer urls de una cadena, web,... (Mis Funciones) Convertir direcciones url de una cadena en enlaces (Mis Funciones) Prevenir cache de nuestro css (CSS estilos) Nuevos Comentarios Smitha681 (obviously...) Bryadcrups (Комп...) Rachelnax (The new X...) Miguel (No se entien...) pepe (hola necesito...)	Robots.txt El protocolo de exclusión de robots (robot exclusion protocol), es el estándar internacional que dictamina cómo los robots, arañas y otros elementos de internet se deben comportar cuando interactúen con tu web. A través de uso, puedes controlar o darles las "indicaciones" adecuadas a estos programas que recorren Internet, acerca de qué pueden, y que no deben acceder en tu sitio. El archivo, llamado robots.txt, se debe crear y guardar en el directorio raíz de tu web, de modo que sea alcanzable por cualquiera. Por ejemplo: http://www.goibela.com/robots.txt Veamos ahora un ejemplo básico, y que de hecho es el mínimo estándar que deberías tener en tu web: Texto plano `User-agent: * Disallow: /cgi-bin/` Aquí le estamos diciendo a todos los robots (simbolo asterisco ), que están prohibidos de indexar el contenido del directorio cgi-bin. También podemos especificar reglas para robots específicos. Supongamos que tenemos un directorio donde guardamos archivos de administración, y no queremos que estén a vista de cualquiera que lo busque en un buscador, pero quizás si en cualquier otro sitio: Texto plano `User-agent: Slurp Disallow: /admin` Podemos combinar y poner más de un directorio, o inclusive archivos específicos: Texto plano `User-agent: Disallow: /cgi-bin/ Disallow: /admin/` Texto plano `User-Agent: Slurp Allow: /admin` Aquí le decimos a todos que están prohibidos de entrar a los directorios cgi-bin y admin, pero a Slurp (el robot de Yahoo) sí le estoy permitiendo el acceso al directorio admin. Nota Importante: Si bien le estamos dando las reglas, no todos los robots las obedecen. Bien por que son mal intencionados, porque sus creadores no les enseñaron, o les enseñaron mal a interpretar el protocolo. Para evitar que estos malos robots se metan a tu sitio, debes bloquearlos a nivel del servidor. Comentarios (1) - Domingo, 02-01-2011 23:21	RSS Feeds RSS Articulos RSS Comentarios
Este sitio es administrado por Miguel \| Login

Programación Goibela

Categorias

Nuevos Articulos

Nuevos Comentarios

Robots.txt

RSS Feeds