Definición: ¿Qué significa Content Scraping?
El raspado de contenido es una forma ilegal de robar contenido original de un sitio web legítimo y publicar el contenido robado en otro sitio sin el conocimiento o permiso del propietario del contenido. Los raspadores de contenido a menudo intentan hacer pasar el contenido robado como propio y no otorgan atribuciones a los propietarios del contenido.
El raspado de contenido se puede lograr a través de copiar y pegar manualmente, o puede usar técnicas más sofisticadas, como el uso de software especial, programación HTTP o analizadores HTML o DOM.
Gran parte del contenido que cae presa del scraping es material con derechos de autor; volver a publicarlo sin el permiso del propietario de los derechos de autor es un delito punible. Sin embargo, los sitios de raspadores están alojados en todo el mundo, y los raspadores a quienes se les pide que eliminen el contenido con derechos de autor pueden simplemente cambiar los dominios o desaparecer.
Techinfo explica el raspado de contenido
Los raspadores de contenido pueden dirigir tráfico a sus sitios web extrayendo contenido de alta calidad y con muchas palabras clave de otros sitios. Los blogueros son particularmente susceptibles a esto, probablemente porque es poco probable que los blogueros individuales lancen un ataque legal contra los scrapers. Se anima a los scrapers a que continúen con esta práctica porque los motores de búsqueda aún no han encontrado una forma eficaz de filtrar el contenido único del contenido extraído, permitiendo que los scrapers sigan beneficiándose.
Los administradores de sitios web pueden protegerse contra el raspado mediante medidas simples, como agregar enlaces a su propio sitio dentro del contenido. Esto al menos les permitirá obtener algo de tráfico del contenido extraído. Los métodos más sofisticados para lidiar con el raspado por bots incluyen:
- Aplicaciones comerciales anti-bot
- Atrapar bots con un honeypot y bloquear sus direcciones IP
- Bloqueo de bots con código JavaScript