Rastreador web

Definición: ¿Qué significa Web Crawler?

Un rastreador web es un bot de Internet que ayuda en la indexación web. Se rastrean una página a la vez a través de un sitio web hasta que se hayan indexado todas las páginas. Los rastreadores web ayudan a recopilar información sobre un sitio web y los enlaces relacionados con ellos, y también ayudan a validar el código HTML y los hipervínculos.

Un rastreador web también se conoce como araña web, indexador automático o simplemente rastreador.

Techinfo explica el rastreador web

Los rastreadores web recopilan información como la URL del sitio web, la información de la metaetiqueta, el contenido de la página web, los enlaces en la página web y los destinos que conducen a esos enlaces, el título de la página web y cualquier otra información relevante. Realizan un seguimiento de las URL que ya se han descargado para evitar descargar la misma página nuevamente. Una combinación de políticas como la política de re-visita, la política de selección, la política de paralelización y la política de cortesía determina el comportamiento del rastreador web. Hay muchos desafíos para los rastreadores web, a saber, la gran World Wide Web en constante evolución, las compensaciones en la selección de contenido, las obligaciones sociales y el trato con los adversarios.

Los rastreadores web son los componentes clave de los motores y sistemas de búsqueda web que buscan en las páginas web. Ayudan a indexar las entradas web y permiten a los usuarios enviar consultas contra el índice y también proporcionan las páginas web que coinciden con las consultas. Otro uso de los rastreadores web es el archivo web, que implica recopilar y archivar periódicamente grandes conjuntos de páginas web. Los rastreadores web también se utilizan en la minería de datos, donde las páginas se analizan en busca de diferentes propiedades, como estadísticas, y luego se realizan análisis de datos en ellas.