salu2 estaba leyendo cosas de Google y me llamo la atencion esto, leanlo si les interesa es para ampliar el conocimiento
Googlebot
Googlebot es el robot de rastreo web
de Google (en ocasiones, también
denominado "araña"). El rastreo es el
proceso mediante el cual Googlebot
descubre páginas nuevas y
actualizadas y las añade al índice de
Google.
Utilizamos una enorme cantidad de
equipos informáticos para obtener (o
"rastrear") miles de millones de
páginas de la Web. Googlebot utiliza
un proceso de rastreo algorítmico: a
través de programas informáticos se
determinan los sitios que hay que
rastrear, la frecuencia y el número de
páginas que hay que buscar en cada
sitio.
El proceso de rastreo de Googlebot
comienza con una lista de URL de
páginas web generada a partir de
procesos de rastreo anteriores y se
amplía con los datos de los sitemaps
que ofrecen los webmasters. A
medida que Googlebot visita cada uno
de esos sitios web, detecta enlaces
(SRC y HREF) en sus páginas y los
añade a la lista de páginas que debe
rastrear. Los sitios nuevos, los
cambios en los existentes y los enlaces
obsoletos se detectan y se utilizan
para actualizar el índice de Google.
Para webmasters:
Googlebot y tu sitio
Cómo accede Googlebot a tu
sitio
De media, Googlebot no suele acceder
a la mayoría de los sitios más de una
vez cada pocos segundos. Sin
embargo, debido a los retrasos de la
red, esta frecuencia puede parecer
ligeramente superior durante breves
períodos de tiempo. Por lo general,
Googlebot descarga una sola copia de
cada página de forma simultánea. Si
detectas que Googlebot descarga la
misma página varias veces, es
probable que esto se deba a la
detención y al reinicio del rastreador.
Googlebot está diseñado para
distribuirse en varios equipos con el
fin de mejorar el rendimiento y el
alcance a medida que la Web se
desarrolla. Además, para reducir el
uso del ancho de banda, muchos de
los rastreadores se ejecutan en
equipos ubicados cerca de los sitios
que indexan en la red. Por tanto, es
posible que tus registros muestren
visitas de varios equipos a la página
google.com, en todos los casos con
Googlebot como "user-agent".
Nuestro objetivo consiste en rastrear
el mayor número posible de páginas
de tu sitio en cada visita sin colapsar
el ancho de banda de tu servidor.
Solicita la modificación de la
frecuencia de rastreo.
Cómo bloquear el acceso de
Googlebot al contenido de tu
sitio
Resulta prácticamente imposible no
publicar enlaces a un servidor web
para mantenerlo en secreto. En el
momento en que un usuario utilice un
enlace de tu servidor "secreto" para
acceder a otro servidor web, tu URL
"secreta" podrá aparecer en la
etiqueta de referencia, y el otro
servidor web podrá almacenarla y
publicarla en su registro de referencia.
Además, la Web contiene un gran
número de enlaces obsoletos y
dañados. Siempre que se publique un
enlace incorrecto a tu sitio o que los
enlaces no se actualicen
correctamente para reflejar los
cambios realizados en tu servidor,
Googlebot tratará de descargar un
enlace incorrecto de tu sitio.
Dispones de varias opciones para
evitar que Googlebot rastree el
contenido de tu sitio, incluido el uso
del archivo robots.txt para bloquear el
acceso a los archivos y a los
directorios de tu servidor.
Es posible que Googlebot tarde un
tiempo en detectar los cambios una
vez que hayas creado el archivo
robots.txt. Si Googlebot sigue
rastreando contenido bloqueado en el
archivo robots.txt, comprueba que la
ubicación de este archivo sea
correcta. El archivo robots.txt se debe
ubicar en el directorio principal del
servidor (por ejemplo,
[Tienes que estar registrado y conectado para ver este vínculo] ya que
su inclusión en un subdirectorio no
tendrá ningún efecto.
Si solo quieres evitar que aparezcan
en el registro de tu servidor web
mensajes de error en los que se
indique que no se puede encontrar el
archivo, crea un archivo vacío con el
nombre "robots.txt". Para evitar que
Googlebot siga los enlaces a una
página de tu sitio, utiliza la
metaetiqueta nofollow . Para evitar
que Googlebot siga un enlace
específico, añade el atributo
rel="nofollow" al enlace.
A continuación se indican otras
sugerencias:
Comprueba si tu archivo
robots.txt funciona
correctamente. La herramienta
Probar robots.txt de la pestaña
URL bloqueadas
(robots.txt) de la página
Acceso de rastreadores te
permite comprobar cómo
interpretará exactamente
Googlebot el contenido de tu
archivo robots.txt. El robot "user-
agent" de Google es, muy
apropiadamente, Googlebot .
La herramienta Explorar como
Google de las Herramientas para
webmasters de Google te permite
comprobar cómo ve exactamente
tu sitio Googlebot. Esta
herramienta puede resultarte
muy útil para la resolución de
incidencias relacionadas con el
contenido del sitio o con su
visibilidad en los resultados de
búsqueda.
Cómo asegurarse de que se
pueda rastrear tu sitio
Googlebot encuentra sitios siguiendo
enlaces entre páginas. En la página
Errores de rastreo de las
Herramientas para webmasters de
Google se indican los problemas
detectados por Googlebot al rastrear
tu sitio. Te recomendamos que
consultes con regularidad esos
errores de rastreo para identificar los
problemas relacionados con tu sitio.
Si estás ejecutando una aplicación
AJAX con contenido que quieres que
aparezca en los resultados de
búsqueda, te recomendamos que
consultes nuestra propuesta sobre
cómo hacer que el contenido basado
en AJAX se pueda rastrear e indexar .
Si tu archivo robots.txt funciona
correctamente, pero el sitio no
presenta tráfico, es posible que la
posición del contenido en las páginas
de resultados no sea buena por
alguno de los motivos que se indican
a continuación.
Incidencias relacionadas con
emisores de spam y con
otros user-agents
Las direcciones IP que utiliza
Googlebot varían cada cierto tiempo.
La mejor forma de identificar los
accesos de Googlebot es utilizar el
robot "user-agent" (Googlebot). Para
comprobar si el robot que accede a tu
servidor es realmente Googlebot ,
realiza una búsqueda DNS inversa.
Googlebot, al igual que el resto de
robots de los motores de búsqueda
acreditados, respetará las directrices
del archivo robots.txt, pero es posible
que algunos emisores de spam y otros
usuarios malintencionados no las
respeten. Informa sobre actividades
fraudulentas a Google .
Google también dispone de otros
user-agents, como Feedfetcher (user-
agent: Feedfetcher-Google). Las
solicitudes de Feedfetcher proceden
de acciones explícitas realizadas por
usuarios que han añadido feeds a la
página principal de Google o a Google
Reader (y no de rastreadores
automatizados), por lo que
Feedfetcher no sigue las directrices
del archivo robots.txt. Para evitar que
Feedfetcher rastree tu sitio, configura
tu servidor para que muestre
mensajes de estado de error 404 o
410 o de cualquier otro tipo al user-
agent Feedfetcher-Google.
Googlebot
Googlebot es el robot de rastreo web
de Google (en ocasiones, también
denominado "araña"). El rastreo es el
proceso mediante el cual Googlebot
descubre páginas nuevas y
actualizadas y las añade al índice de
Google.
Utilizamos una enorme cantidad de
equipos informáticos para obtener (o
"rastrear") miles de millones de
páginas de la Web. Googlebot utiliza
un proceso de rastreo algorítmico: a
través de programas informáticos se
determinan los sitios que hay que
rastrear, la frecuencia y el número de
páginas que hay que buscar en cada
sitio.
El proceso de rastreo de Googlebot
comienza con una lista de URL de
páginas web generada a partir de
procesos de rastreo anteriores y se
amplía con los datos de los sitemaps
que ofrecen los webmasters. A
medida que Googlebot visita cada uno
de esos sitios web, detecta enlaces
(SRC y HREF) en sus páginas y los
añade a la lista de páginas que debe
rastrear. Los sitios nuevos, los
cambios en los existentes y los enlaces
obsoletos se detectan y se utilizan
para actualizar el índice de Google.
Para webmasters:
Googlebot y tu sitio
Cómo accede Googlebot a tu
sitio
De media, Googlebot no suele acceder
a la mayoría de los sitios más de una
vez cada pocos segundos. Sin
embargo, debido a los retrasos de la
red, esta frecuencia puede parecer
ligeramente superior durante breves
períodos de tiempo. Por lo general,
Googlebot descarga una sola copia de
cada página de forma simultánea. Si
detectas que Googlebot descarga la
misma página varias veces, es
probable que esto se deba a la
detención y al reinicio del rastreador.
Googlebot está diseñado para
distribuirse en varios equipos con el
fin de mejorar el rendimiento y el
alcance a medida que la Web se
desarrolla. Además, para reducir el
uso del ancho de banda, muchos de
los rastreadores se ejecutan en
equipos ubicados cerca de los sitios
que indexan en la red. Por tanto, es
posible que tus registros muestren
visitas de varios equipos a la página
google.com, en todos los casos con
Googlebot como "user-agent".
Nuestro objetivo consiste en rastrear
el mayor número posible de páginas
de tu sitio en cada visita sin colapsar
el ancho de banda de tu servidor.
Solicita la modificación de la
frecuencia de rastreo.
Cómo bloquear el acceso de
Googlebot al contenido de tu
sitio
Resulta prácticamente imposible no
publicar enlaces a un servidor web
para mantenerlo en secreto. En el
momento en que un usuario utilice un
enlace de tu servidor "secreto" para
acceder a otro servidor web, tu URL
"secreta" podrá aparecer en la
etiqueta de referencia, y el otro
servidor web podrá almacenarla y
publicarla en su registro de referencia.
Además, la Web contiene un gran
número de enlaces obsoletos y
dañados. Siempre que se publique un
enlace incorrecto a tu sitio o que los
enlaces no se actualicen
correctamente para reflejar los
cambios realizados en tu servidor,
Googlebot tratará de descargar un
enlace incorrecto de tu sitio.
Dispones de varias opciones para
evitar que Googlebot rastree el
contenido de tu sitio, incluido el uso
del archivo robots.txt para bloquear el
acceso a los archivos y a los
directorios de tu servidor.
Es posible que Googlebot tarde un
tiempo en detectar los cambios una
vez que hayas creado el archivo
robots.txt. Si Googlebot sigue
rastreando contenido bloqueado en el
archivo robots.txt, comprueba que la
ubicación de este archivo sea
correcta. El archivo robots.txt se debe
ubicar en el directorio principal del
servidor (por ejemplo,
[Tienes que estar registrado y conectado para ver este vínculo] ya que
su inclusión en un subdirectorio no
tendrá ningún efecto.
Si solo quieres evitar que aparezcan
en el registro de tu servidor web
mensajes de error en los que se
indique que no se puede encontrar el
archivo, crea un archivo vacío con el
nombre "robots.txt". Para evitar que
Googlebot siga los enlaces a una
página de tu sitio, utiliza la
metaetiqueta nofollow . Para evitar
que Googlebot siga un enlace
específico, añade el atributo
rel="nofollow" al enlace.
A continuación se indican otras
sugerencias:
Comprueba si tu archivo
robots.txt funciona
correctamente. La herramienta
Probar robots.txt de la pestaña
URL bloqueadas
(robots.txt) de la página
Acceso de rastreadores te
permite comprobar cómo
interpretará exactamente
Googlebot el contenido de tu
archivo robots.txt. El robot "user-
agent" de Google es, muy
apropiadamente, Googlebot .
La herramienta Explorar como
Google de las Herramientas para
webmasters de Google te permite
comprobar cómo ve exactamente
tu sitio Googlebot. Esta
herramienta puede resultarte
muy útil para la resolución de
incidencias relacionadas con el
contenido del sitio o con su
visibilidad en los resultados de
búsqueda.
Cómo asegurarse de que se
pueda rastrear tu sitio
Googlebot encuentra sitios siguiendo
enlaces entre páginas. En la página
Errores de rastreo de las
Herramientas para webmasters de
Google se indican los problemas
detectados por Googlebot al rastrear
tu sitio. Te recomendamos que
consultes con regularidad esos
errores de rastreo para identificar los
problemas relacionados con tu sitio.
Si estás ejecutando una aplicación
AJAX con contenido que quieres que
aparezca en los resultados de
búsqueda, te recomendamos que
consultes nuestra propuesta sobre
cómo hacer que el contenido basado
en AJAX se pueda rastrear e indexar .
Si tu archivo robots.txt funciona
correctamente, pero el sitio no
presenta tráfico, es posible que la
posición del contenido en las páginas
de resultados no sea buena por
alguno de los motivos que se indican
a continuación.
Incidencias relacionadas con
emisores de spam y con
otros user-agents
Las direcciones IP que utiliza
Googlebot varían cada cierto tiempo.
La mejor forma de identificar los
accesos de Googlebot es utilizar el
robot "user-agent" (Googlebot). Para
comprobar si el robot que accede a tu
servidor es realmente Googlebot ,
realiza una búsqueda DNS inversa.
Googlebot, al igual que el resto de
robots de los motores de búsqueda
acreditados, respetará las directrices
del archivo robots.txt, pero es posible
que algunos emisores de spam y otros
usuarios malintencionados no las
respeten. Informa sobre actividades
fraudulentas a Google .
Google también dispone de otros
user-agents, como Feedfetcher (user-
agent: Feedfetcher-Google). Las
solicitudes de Feedfetcher proceden
de acciones explícitas realizadas por
usuarios que han añadido feeds a la
página principal de Google o a Google
Reader (y no de rastreadores
automatizados), por lo que
Feedfetcher no sigue las directrices
del archivo robots.txt. Para evitar que
Feedfetcher rastree tu sitio, configura
tu servidor para que muestre
mensajes de estado de error 404 o
410 o de cualquier otro tipo al user-
agent Feedfetcher-Google.
Última edición por botlammer el Lun Jul 09, 2012 1:34 am, editado 1 vez (Razón : palabras ;))