Los buscadores tipo google se sirven de robots que les permiten leer una página web, recuperar y guardar su contenido en una base de datos y seguir los enlaces que tenga a otras páginas web.
Estos programas navegan saltando de enlace a enlace. Su labor es muy útil, ya que
permite que estos buscadores tengan resultados que ofrecernos. Pero también puede ser perjudicial. Los propietarios de una página pueden desear que parte de su contenido no sea indexado (por ejemplo, porque se trata de contenido temporal) o puede suceder que los robots (spiders) sometan al servidor a un esfuerzo excesivo, al pedir demasiadas páginas muy seguidas.
El archivo robots.txt
Cuando un robot visita una página, lo primero que solicita al servidor es el archivo http://www.dominio.com/robots.txt. Si puede localizar el documento, lo analiza para ver si está permitido acceder a su contenido, y de ser así, analiza las directivas existentes respecto de la indexación del contenido del sitio web.
El archivo robots.txt puede personalizarse para que se aplique solo a los robots de determinados buscadores, o para excluir solo determinados directorios o páginas.
En primer lugar un ejemplo de archivo robots.txt que excluye TODAS las busquedas a TODOS los robots:
User-agent: * # aplicable a todos
Disallow: / # impide la indexacion de todas las páginas
En cuanto a la colocacion del archivo robots.txt, sólo puede haber uno en cada sitio web, precisamente en el directorio raiz. Un robot no buscará nunca el archivo robots.txt en un subdirectorio, por lo que es inútil colocarlo allí.
Al preparar tu archivo robots.txt ten en cuenta que las urls son sensibles a mayúsculas y minúsculas. El archivo se compondrá de diversas directivas agrupadas en relación con el robot al que se aplican. Dentro de cada uno de estos grupos de directivas NO puede haber lineas en blanco. Cada sección o grupo de directivas empezará con el campo User-agent, que sirve para identificar al robot a que dichas directivas se refieren. Siempre tiene que existir este campo. A continuacion pondremos una o mas directivas Disallow. Veámos un ejemplo:
Establecemos total libertad para
webcrawler, ya que dejamos
Disallow vacio
User-agent: webcrawler
Disallow:
En cambio
lycra y BadBot tienen prohibido integramente el acceso
User-agent: lycra
User-agent: BadBot
Disallow: /
El resto de bots (señalado mediante *) tienen prohibido el acceso a los directorios /tmp y /log; libertad para el resto.
User-agent: *
Disallow: /tmp
Disallow: /logs
Puedes consultar una lista de los robots conocidos en
robotstxt.org
Recuerda que si el valor de User-agent es *, las directivas que le sigan se aplicarán a cualquier robot que no tenga directivas específicas.
Mediante las directivas "Disallow" especificamos los directorios o archivos concretos que deseamos excluir:
Disallow: /help # afecta a /help.html y a /help/index.html
Disallow: /help/ # afecta a /help/index.html pero no a /help.html.
Siempre tiene que haber un campo Disallow, pero si lo dejamos vacio indicamos que no contiene restricción ninguna.
Ten en cuenta que en la directiva Disallow no se admiten comodines. /help/* no serviría (el equivalente sería /help).
Robots y etiquetas META
Si no podemos crear un archivo robots.txt, o si queremos personalizar las instrucciones página por página, podemos utilizar las etiquetas META:
< META name="ROBOTS" content="NOINDEX, NOFOLLOW" >
Este ejemplo indica al robot que no debe ni indexar el documento ni seguir sus links. Las opciones a poner en content son ALL, INDEX, NOFOLLOW, NOINDEX
Visit-time
Directiva que permitan controlar el tiempo en el que los robots indexan las páginas:
# Permitir trabajar a los bots de 2 am a 7:45 am (horas Greenwitch)
Visit-time: 0200-0745
# Un documento CADA 30 minutos
Request-rate: 1/30m
# Combinado: 1 doc cada 10 minutos
# y solo de una a 5 tarde
Request-rate: 1/10m 1300-1659