Programación GoibelaTodo sobre programación |
||
CategoriasNuevos Articulos
Nuevos Comentarios |
Robots.txtDomingo, 02-01-2011 23:21 - Leer comentarios - Comentar El protocolo de exclusión de robots (robot exclusion protocol), es el estándar internacional que dictamina cómo los robots, arañas y otros elementos de internet se deben comportar cuando interactúen con tu web. A través de uso, puedes controlar o darles las "indicaciones" adecuadas a estos programas que recorren Internet, acerca de qué pueden, y que no deben acceder en tu sitio. El archivo, llamado robots.txt, se debe crear y guardar en el directorio raíz de tu web, de modo que sea alcanzable por cualquiera. Por ejemplo: http://www.goibela.com/robots.txt Veamos ahora un ejemplo básico, y que de hecho es el mínimo estándar que deberías tener en tu web: Texto plano
Aquí le estamos diciendo a todos los robots (simbolo asterisco *), que están prohibidos de indexar el contenido del directorio cgi-bin. También podemos especificar reglas para robots específicos. Supongamos que tenemos un directorio donde guardamos archivos de administración, y no queremos que estén a vista de cualquiera que lo busque en un buscador, pero quizás si en cualquier otro sitio: Texto plano
Podemos combinar y poner más de un directorio, o inclusive archivos específicos: Texto plano
Texto plano
Aquí le decimos a todos que están prohibidos de entrar a los directorios cgi-bin y admin, pero a Slurp (el robot de Yahoo) sí le estoy permitiendo el acceso al directorio admin. Nota Importante: Si bien le estamos dando las reglas, no todos los robots las obedecen. Bien por que son mal intencionados, porque sus creadores no les enseñaron, o les enseñaron mal a interpretar el protocolo. Para evitar que estos malos robots se metan a tu sitio, debes bloquearlos a nivel del servidor. ComentariosShirley - Martes, 08-11-2011 07:16 If I communicated I could thank you enugoh for this, I'd be lying. No se permiten comentarios en este momento. |
RSS Feeds |