Hosting, registro y alojamiento web, dominios y servidores
Tu servidor de alojamiento web, servidores y registro de dominios (acceso a página principal)
Favoritos | Recomiéndanos | Enlázate | Contacto | Buscador   
Acerca de Dimensis | Informaciones legales   
··································   
[ Acceso a la Página Principal ]   
 
  BLOG Consultas Soporte Programación Utilidades Artículos Mapa web Área privada  


Soporte técnico sobre alojamiento web y servidores de Dimensis

Información para administrar tus recursos, resolver dudas, contactar con nuestro soporte y estar siempre al día



Artículos publicados en Univers Dimensis

· Artículos por temas
· Definiciones
· Archivo de artículos
· Ranking (top)
· Sindicación (RSS)

· Artículos en catalán



  
Consultas sobre Optimización de recursos


¿Qué es y cómo funciona el archivo robots.txt?

Los buscadores tipo google se sirven de robots que les permiten leer una página web, recuperar y guardar su contenido en una base de datos y seguir los enlaces que tenga a otras páginas web.

Estos programas navegan saltando de enlace a enlace. Su labor es muy útil, ya que permite que estos buscadores tengan resultados que ofrecernos. Pero también puede ser perjudicial. Los propietarios de una página pueden desear que parte de su contenido no sea indexado (por ejemplo, porque se trata de contenido temporal) o puede suceder que los robots (spiders) sometan al servidor a un esfuerzo excesivo, al pedir demasiadas páginas muy seguidas.

El archivo robots.txt

Cuando un robot visita una página, lo primero que solicita al servidor es el archivo http://www.dominio.com/robots.txt. Si puede localizar el documento, lo analiza para ver si está permitido acceder a su contenido, y de ser así, analiza las directivas existentes respecto de la indexación del contenido del sitio web.

El archivo robots.txt puede personalizarse para que se aplique solo a los robots de determinados buscadores, o para excluir solo determinados directorios o páginas.

En primer lugar un ejemplo de archivo robots.txt que excluye TODAS las busquedas a TODOS los robots:

User-agent: * # aplicable a todos
Disallow: / # impide la indexacion de todas las páginas

En cuanto a la colocacion del archivo robots.txt, sólo puede haber uno en cada sitio web, precisamente en el directorio raiz. Un robot no buscará nunca el archivo robots.txt en un subdirectorio, por lo que es inútil colocarlo allí.

Al preparar tu archivo robots.txt ten en cuenta que las urls son sensibles a mayúsculas y minúsculas. El archivo se compondrá de diversas directivas agrupadas en relación con el robot al que se aplican. Dentro de cada uno de estos grupos de directivas NO puede haber lineas en blanco. Cada sección o grupo de directivas empezará con el campo User-agent, que sirve para identificar al robot a que dichas directivas se refieren. Siempre tiene que existir este campo. A continuacion pondremos una o mas directivas Disallow. Veámos un ejemplo:

Establecemos total libertad para webcrawler, ya que dejamos Disallow vacio

User-agent: webcrawler
Disallow:

En cambio lycra y BadBot tienen prohibido integramente el acceso

User-agent: lycra
User-agent: BadBot
Disallow: /

El resto de bots (señalado mediante *) tienen prohibido el acceso a los directorios /tmp y /log; libertad para el resto.

User-agent: *
Disallow: /tmp
Disallow: /logs

Puedes consultar una lista de los robots conocidos en robotstxt.org

Recuerda que si el valor de User-agent es *, las directivas que le sigan se aplicarán a cualquier robot que no tenga directivas específicas.

Mediante las directivas "Disallow" especificamos los directorios o archivos concretos que deseamos excluir:

Disallow: /help # afecta a /help.html y a /help/index.html
Disallow: /help/ # afecta a /help/index.html pero no a /help.html.

Siempre tiene que haber un campo Disallow, pero si lo dejamos vacio indicamos que no contiene restricción ninguna.
Ten en cuenta que en la directiva Disallow no se admiten comodines. /help/* no serviría (el equivalente sería /help).

Robots y etiquetas META

Si no podemos crear un archivo robots.txt, o si queremos personalizar las instrucciones página por página, podemos utilizar las etiquetas META:

< META name="ROBOTS" content="NOINDEX, NOFOLLOW" >

Este ejemplo indica al robot que no debe ni indexar el documento ni seguir sus links. Las opciones a poner en content son ALL, INDEX, NOFOLLOW, NOINDEX

Visit-time

Directiva que permitan controlar el tiempo en el que los robots indexan las páginas:

# Permitir trabajar a los bots de 2 am a 7:45 am (horas Greenwitch)

Visit-time: 0200-0745

# Un documento CADA 30 minutos

Request-rate: 1/30m

# Combinado: 1 doc cada 10 minutos
# y solo de una a 5 tarde
Request-rate: 1/10m 1300-1659


[ Otras consultas sobre Optimización de recursos ]
[ Volver al menú principal ]


¿Aún tienes dudas?
Nota: Recuerda que existe una sección específica con los problemas más frecuentes.

  

· DESTACADOS ·

Máquinas dedicadas y servidores virtuales
NAS para almacenamiento remoto accesible mediante NFS


· DESCUENTOS ·

Ofertas de alojamiento web y servidores
Allotjament de pàgines web en català



.:Webs destacadas:.

· el blog de DIMENSIS
· Cambio climático
· Productes del Camp


Productes del Camp
Especial Productes del Camp

Xarxa ECO



HacklabValls



1999-2011 Dimensis Global Communications (Los contenidos pueden compartirse bajo licencia Copyleft)
Alojamiento web, servidores virtuales, servidores dedicados y registro de dominios.
Optimizado para resolución de 800x600 y 1024x768. Requiere activación de cookies, Java y Flash.
WebSite realizado con PHP-Nuke, bajo licencia GNU/GPL. (Tiempo de carga: 0.005 segundos)