Titan Movil
Bienvenido a titan movil, te invitamos a registrate para acceder a todo el contenido del foro


No estás conectado. Conéctate o registrate

Titan Movil » Distintos temas » Zona libre » (explicacion) como es que google encuentra tantas paginas

(explicacion) como es que google encuentra tantas paginas

Ver el tema anterior Ver el tema siguiente Ir abajo  Mensaje [Página 1 de 1.]

botlammer


Master Android
Master Android
salu2 estaba leyendo cosas de Google y me llamo la atencion esto, leanlo si les interesa es para ampliar el conocimiento

Googlebot
Googlebot es el robot de rastreo web
de Google (en ocasiones, también
denominado "araña"). El rastreo es el
proceso mediante el cual Googlebot
descubre páginas nuevas y
actualizadas y las añade al índice de
Google.
Utilizamos una enorme cantidad de
equipos informáticos para obtener (o
"rastrear") miles de millones de
páginas de la Web. Googlebot utiliza
un proceso de rastreo algorítmico: a
través de programas informáticos se
determinan los sitios que hay que
rastrear, la frecuencia y el número de
páginas que hay que buscar en cada
sitio.
El proceso de rastreo de Googlebot
comienza con una lista de URL de
páginas web generada a partir de
procesos de rastreo anteriores y se
amplía con los datos de los sitemaps
que ofrecen los webmasters. A
medida que Googlebot visita cada uno
de esos sitios web, detecta enlaces
(SRC y HREF) en sus páginas y los
añade a la lista de páginas que debe
rastrear. Los sitios nuevos, los
cambios en los existentes y los enlaces
obsoletos se detectan y se utilizan
para actualizar el índice de Google.
Para webmasters:
Googlebot y tu sitio
Cómo accede Googlebot a tu
sitio
De media, Googlebot no suele acceder
a la mayoría de los sitios más de una
vez cada pocos segundos. Sin
embargo, debido a los retrasos de la
red, esta frecuencia puede parecer
ligeramente superior durante breves
períodos de tiempo. Por lo general,
Googlebot descarga una sola copia de
cada página de forma simultánea. Si
detectas que Googlebot descarga la
misma página varias veces, es
probable que esto se deba a la
detención y al reinicio del rastreador.
Googlebot está diseñado para
distribuirse en varios equipos con el
fin de mejorar el rendimiento y el
alcance a medida que la Web se
desarrolla. Además, para reducir el
uso del ancho de banda, muchos de
los rastreadores se ejecutan en
equipos ubicados cerca de los sitios
que indexan en la red. Por tanto, es
posible que tus registros muestren
visitas de varios equipos a la página
google.com, en todos los casos con
Googlebot como "user-agent".
Nuestro objetivo consiste en rastrear
el mayor número posible de páginas
de tu sitio en cada visita sin colapsar
el ancho de banda de tu servidor.
Solicita la modificación de la
frecuencia de rastreo.
Cómo bloquear el acceso de
Googlebot al contenido de tu
sitio
Resulta prácticamente imposible no
publicar enlaces a un servidor web
para mantenerlo en secreto. En el
momento en que un usuario utilice un
enlace de tu servidor "secreto" para
acceder a otro servidor web, tu URL
"secreta" podrá aparecer en la
etiqueta de referencia, y el otro
servidor web podrá almacenarla y
publicarla en su registro de referencia.
Además, la Web contiene un gran
número de enlaces obsoletos y
dañados. Siempre que se publique un
enlace incorrecto a tu sitio o que los
enlaces no se actualicen
correctamente para reflejar los
cambios realizados en tu servidor,
Googlebot tratará de descargar un
enlace incorrecto de tu sitio.
Dispones de varias opciones para
evitar que Googlebot rastree el
contenido de tu sitio, incluido el uso
del archivo robots.txt para bloquear el
acceso a los archivos y a los
directorios de tu servidor.
Es posible que Googlebot tarde un
tiempo en detectar los cambios una
vez que hayas creado el archivo
robots.txt. Si Googlebot sigue
rastreando contenido bloqueado en el
archivo robots.txt, comprueba que la
ubicación de este archivo sea
correcta. El archivo robots.txt se debe
ubicar en el directorio principal del
servidor (por ejemplo,
[Tienes que estar registrado y conectado para ver este vínculo] ya que
su inclusión en un subdirectorio no
tendrá ningún efecto.
Si solo quieres evitar que aparezcan
en el registro de tu servidor web
mensajes de error en los que se
indique que no se puede encontrar el
archivo, crea un archivo vacío con el
nombre "robots.txt". Para evitar que
Googlebot siga los enlaces a una
página de tu sitio, utiliza la
metaetiqueta nofollow . Para evitar
que Googlebot siga un enlace
específico, añade el atributo
rel="nofollow" al enlace.
A continuación se indican otras
sugerencias:
Comprueba si tu archivo
robots.txt funciona
correctamente. La herramienta
Probar robots.txt de la pestaña
URL bloqueadas
(robots.txt) de la página
Acceso de rastreadores te
permite comprobar cómo
interpretará exactamente
Googlebot el contenido de tu
archivo robots.txt. El robot "user-
agent" de Google es, muy
apropiadamente, Googlebot .
La herramienta Explorar como
Google de las Herramientas para
webmasters de Google te permite
comprobar cómo ve exactamente
tu sitio Googlebot. Esta
herramienta puede resultarte
muy útil para la resolución de
incidencias relacionadas con el
contenido del sitio o con su
visibilidad en los resultados de
búsqueda.
Cómo asegurarse de que se
pueda rastrear tu sitio
Googlebot encuentra sitios siguiendo
enlaces entre páginas. En la página
Errores de rastreo de las
Herramientas para webmasters de
Google se indican los problemas
detectados por Googlebot al rastrear
tu sitio. Te recomendamos que
consultes con regularidad esos
errores de rastreo para identificar los
problemas relacionados con tu sitio.
Si estás ejecutando una aplicación
AJAX con contenido que quieres que
aparezca en los resultados de
búsqueda, te recomendamos que
consultes nuestra propuesta sobre
cómo hacer que el contenido basado
en AJAX se pueda rastrear e indexar .
Si tu archivo robots.txt funciona
correctamente, pero el sitio no
presenta tráfico, es posible que la
posición del contenido en las páginas
de resultados no sea buena por
alguno de los motivos que se indican
a continuación.
Incidencias relacionadas con
emisores de spam y con
otros user-agents
Las direcciones IP que utiliza
Googlebot varían cada cierto tiempo.
La mejor forma de identificar los
accesos de Googlebot es utilizar el
robot "user-agent" (Googlebot). Para
comprobar si el robot que accede a tu
servidor es realmente Googlebot ,
realiza una búsqueda DNS inversa.
Googlebot, al igual que el resto de
robots de los motores de búsqueda
acreditados, respetará las directrices
del archivo robots.txt, pero es posible
que algunos emisores de spam y otros
usuarios malintencionados no las
respeten. Informa sobre actividades
fraudulentas a Google .
Google también dispone de otros
user-agents, como Feedfetcher (user-
agent: Feedfetcher-Google). Las
solicitudes de Feedfetcher proceden
de acciones explícitas realizadas por
usuarios que han añadido feeds a la
página principal de Google o a Google
Reader (y no de rastreadores
automatizados), por lo que
Feedfetcher no sigue las directrices
del archivo robots.txt. Para evitar que
Feedfetcher rastree tu sitio, configura
tu servidor para que muestre
mensajes de estado de error 404 o
410 o de cualquier otro tipo al user-
agent Feedfetcher-Google.



Última edición por botlammer el Lun Jul 09, 2012 1:34 am, editado 1 vez (Razón : palabras ;))


________________________________________________________________________________________________________________________________
¿Quieres aprender a manipular la rfid ? contactame mas que solo software Twisted Evil Twisted Evil pirat pirat pirat Twisted Evil 

yo solo se que no se nada

Ver perfil de usuario

delta_123


Miembro ELITE
Miembro ELITE
jajaaj muy buena carnal +1

Ver perfil de usuario
W0ou xD

Ver perfil de usuario

botlammer


Master Android
Master Android
de nada ya saben que hay que aportar lo que aprendamos para ser mas competentes Wink


________________________________________________________________________________________________________________________________
¿Quieres aprender a manipular la rfid ? contactame mas que solo software Twisted Evil Twisted Evil pirat pirat pirat Twisted Evil 

yo solo se que no se nada

Ver perfil de usuario

R-Ocelot


Intermedio
Intermedio
El inicio de Skynet. affraid +1

Ver perfil de usuario

chikimaxter


Master Android
Master Android
Exelente! Very Happy

Ver perfil de usuario

starlight


Master iPhone
Master iPhone
Esto sera parecido en otros motores de busqueda

Ver perfil de usuario

iediid


Gran Experto
Gran Experto
buena info.. no sabía nada de Googlebot.. ahora veo porque tantos resultados arroja el buscador de Google..

Ver perfil de usuario

Jumper


Gran Experto
Gran Experto
Excelente info sabia un poco de esto pero no tanto

Ver perfil de usuario http://titansmasters.foroactivo.mx/

botlammer


Master Android
Master Android
si verdad es.bueno saber como funcionan las.cosas ^^


________________________________________________________________________________________________________________________________
¿Quieres aprender a manipular la rfid ? contactame mas que solo software Twisted Evil Twisted Evil pirat pirat pirat Twisted Evil 

yo solo se que no se nada

Ver perfil de usuario

botlammer


Master Android
Master Android
si verdad es.bueno saber como funcionan las.cosas ^^


________________________________________________________________________________________________________________________________
¿Quieres aprender a manipular la rfid ? contactame mas que solo software Twisted Evil Twisted Evil pirat pirat pirat Twisted Evil 

yo solo se que no se nada

Ver perfil de usuario

bran0


Novato
Novato
Huy cuánta info interesante.

Ver perfil de usuario

marcovich16


Titan Leyenda
Titan Leyenda
jajajajaj buena info Very Happy

Ver perfil de usuario http://marcovich-proxy.appspot.com

doncel2260


Master Android
Master Android
ahora se. por que se repiten las cosa


________________________________________________________________________________________________________________________________
"Tu envidia y enojo son alimento de mi ego
JAJA No es cierto sólo me dan risa

"


Ver perfil de usuario

zor0


Colaborador
Colaborador
Ya lo había leído un poco antes pero este estuvo muy completo +1


________________________________________________________________________________________________________________________________
*NUNCA UNA NOCHE VENCIÓ, A UN AMANECER*



si dices +1 Twisted Evil pues dalo no solo lo pongas de adorno, Evil or Very Mad
no cuenta que pongas +1 si no le das al signo de + affraid
Ver perfil de usuario

jesus5050


Master J2ME
Master J2ME
BUENA INFO

Ver perfil de usuario http://paraiso-movil.superforo.net/

hack1102


Novato
Novato
Muy buena informacion amigo

Ver perfil de usuario

Contenido patrocinado


Ver el tema anterior Ver el tema siguiente Volver arriba  Mensaje [Página 1 de 1.]

Permisos de este foro:
No puedes responder a temas en este foro.