Back to Question Center
0

Semalt Islamabad Experto y - Lo que necesita saber sobre un rastreador web

1 answers:

Un rastreador A del motor de búsqueda es una aplicación, secuencia de comandos o programa automatizado que recorre la World Wide Web de forma programada para proporcionar información actualizada para un motor de búsqueda particular. ¿Alguna vez se ha preguntado por qué obtiene diferentes conjuntos de resultados cada vez que escribe las mismas palabras clave en Bing o Google? Es porque las páginas web se cargan cada minuto. Y a medida que se cargan, los rastreadores web recorren las nuevas páginas web.

Michael Brown, un destacado experto de Semalt , dice que los rastreadores web, también conocidos como indexadores automáticos y arañas web, trabajan en diferentes algoritmos para diferentes motores de búsqueda. El proceso de rastreo web comienza con la identificación de nuevas URL que se deben visitar ya sea porque se acaban de subir o porque algunas de sus páginas web tienen contenido nuevo. Estas URL identificadas se conocen como semillas en el término del motor de búsqueda - cordless digital tyre inflator.

Estas URL se visitan y vuelven a visitar, según la frecuencia con la que se cargan nuevos contenidos y las políticas que guían a las arañas. Durante la visita, todos los hipervínculos en cada una de las páginas web se identifican y agregan a la lista. En este punto, es importante establecer en términos claros que los diferentes motores de búsqueda usan diferentes algoritmos y políticas. Esta es la razón por la que habrá diferencias con respecto a los resultados de Google y los resultados de Bing con las mismas palabras clave, aunque también habrá muchas similitudes.

Los rastreadores web hacen enormes trabajos para mantener actualizados los motores de búsqueda. De hecho, su trabajo es muy difícil debido a tres razones a continuación.

1. El volumen de páginas web en Internet en todo momento. Usted sabe que hay varios millones de sitios en la web y más se lanzan todos los días. Cuanto más el volumen del sitio web en la red, más difícil es para los rastreadores estar actualizados.

2. El ritmo al que se lanzan los sitios web. ¿Tienes idea de cuántos nuevos sitios web se lanzan todos los días?

3. La frecuencia con la que se modifican los contenidos incluso en sitios web existentes y la adición de páginas dinámicas.

Estos son los tres problemas que dificultan que las arañas web estén actualizadas. En lugar de rastrear sitios web por orden de llegada, muchas arañas web priorizan las páginas web y los hipervínculos. La priorización se basa en solo 4 políticas generales de rastreadores de motores de búsqueda.

1. La política de selección se usa para seleccionar qué páginas se descargan primero para el rastreo.

2. El tipo de política de re-visita se usa para determinar cuándo y con qué frecuencia se vuelven a visitar las páginas web para posibles cambios.

3. La política de paralelización se utiliza para coordinar la distribución de rastreadores para una cobertura rápida de todas las semillas.

4. La política de cortesía se usa para determinar cómo se rastrean las URL para evitar la sobrecarga de sitios web.

Para una cobertura rápida y precisa de las semillas, los rastreadores deben tener una gran técnica de rastreo que permita la priorización y el estrechamiento de las páginas web, y también deben tener una arquitectura altamente optimizada. Estos dos les facilitarán rastrear y descargar cientos de millones de páginas web en unas pocas semanas.

En una situación ideal, cada página web se extrae de la World Wide Web y se toma a través de un multi-threaded downloader después de lo cual, las páginas web o URL se ponen en cola antes de pasarlas a través de un planificador dedicado para prioridad. Las URL priorizadas se toman de nuevo a través del programa de descarga multiproceso para que sus metadatos y texto se almacenen para un rastreo adecuado.

Actualmente, hay varias arañas de motor de búsqueda o rastreadores. El utilizado por Google es Google Crawler. Sin las arañas web, las páginas de resultados de los motores de búsqueda devolverán cero resultados o contenido obsoleto, ya que las páginas web nunca se incluirán en la lista. De hecho, no habrá nada como la investigación en línea.

November 26, 2017