Programación GoibelaTodo sobre programación |
||
Inicio
Servidor Apache .htaccess Relación de los peores Agentes, Robots, y Arañas que debes bloquear en .htaccess |
||
CategoriasNuevos Articulos
Nuevos Comentarios |
Relación de los peores Agentes, Robots, y Arañas que debes bloquear en .htaccessDomingo, 02-01-2011 23:10 - Leer comentarios - Comentar Aunque ésta no es una lista exhaustiva, de hecho que te ayudará a reducir enormemente la cantidad de aquellos que quieran acceder a tu contenido para aprovecharse de alguna u otra manera de él. Texto plano
Con esto, estamos bloqueando cerca de 250 agentes de usuario que en su mayoría son perjudicales para tu sitio. Algunos de ellos merecen una explicación más detallada: $ y .$ - Bloquea a aquellos que no indican su user agent, o colocan una sola letra en vez del nombre completo. .*compatible\ \; - Hace match a un falso agente de usuario, que utiliza un espacio entre la palabra compatible y el punto y coma. [bcdfgjklmnpqrstvwxyz]{5,} - Este es realmente hermoso. Lo que hace es bloquear a aquellos que usen un user agent compuesto de 5 o más consonantes seguidas. Por ejemplo, bloqueará a un agente Lbjnspv ykhuspjr jxtm, o a un agente xxxxx, pero no a uno de la forma xxxx Microsoft – Bloquea a todos aquellos que intentan abrir tu sitio desde frontpage, word, o cualquier otra herramienta de edición de Microsoft. Wget – No es una mala herramienta per se, de hecho la utilizamos mucho aquí, pero prefiero bloquearla y sólo permitirla a mi propio servidor. ¿Pero cómo hacemos esto? Combinamos la regla anterior, y le añadimos la siguiente: Texto plano
Esta regla combinada con la anterior nos dice: Si cumple la regla 1, Y además el servidor NO es el 72.36.150.160, entonces niega el acceso. Con este “truco”, podemos seguir utilizando el Wget, o cualquier otro programa bloqueado desde nuestro servidor, y sin embargo estará negado el acceso a cualquiera que intente entrar desde otra dirección ip. Pero sería conveniente a cualquier agente que lea el archivo robots.txt, ya que allí puedes poner las reglas "visibles" que quieras darle a cualquier robot. Para ello, combinamos la regla anterior con esta: Texto plano
Finalmente una aclaración. No todos estos programas son "malos". Los programas en sí son herramientas, el problema es que ellas suelen ser abusadas por otras personas con el fin de satisfacer sus propios intereses, los cuales en un 99% de los casos no están alineados con los tuyos. Personalmente, prefiero bloquearlas y evitar el descarado robo de información y ancho de banda a la cual suelen ser sometidos muchos sitios. En algunos casos he visto una reducción drástica del consumo de recursos y ancho de banda, acumulando varios gigabytes de transmisión mensuales. Lo ideal es, bloquearlos, y luego ir analizando nuestros logs para ver a quienes bloqueamos y por qué. Así nos daremos cuenta si algún bloqueo es "injusto" o no. ComentariosNo se permiten comentarios en este momento. |
RSS Feeds |