Web Scraping vs Web Harvesting: funcionamiento y diferencias de las dos técnicas para extraer datos

Los datos y la información es algo fundamental para los usuarios. Vivimos en una época en la que todo el contenido puede estar presente en la red y de ahí que sea vulnerable a posibles ataques. Un ejemplo de lugar donde hay una gran concentración de información y que puede sufrir ataques son las páginas web. Hay diversos métodos que pueden utilizar los ciberdelincuentes. En este artículo vamos a hablar de Web Scraping y Web Harvesting. Vamos a explicar cómo extraen datos y qué diferencias hay entre ambos.

Web Scraping y Web Harvesting

Hay que mencionar que tanto Web Scraping como Web Harvesting son métodos para extraer datos de páginas web. Son similares, incluso en muchos casos se utilizan uno u otro nombre indistintamente. Sin embargo cuentan con pequeñas diferencias.

Básicamente podemos decir que Web Harvesting es el conjunto de todas las opciones que existen para extraer información de una página web. Web Scraping forma parte de todo ese conjunto, pero utiliza métodos más específicos.

Podemos decir que Web Harvesting es un método de extraer datos cuando generalmente existe una API. Puede recopilar informes XML, RSS o JSON. Por su parte Web Scraping hace referencia principalmente al rastreo HTML, a través de un servidor estático, y no hay una API disponible.

Otra cosa principal que diferencia Web Scraping frente a Web Harvesting es que toda la extracción de datos o información no es negativa. Es decir, pensemos por ejemplo en la información que recopila un buscador como Google. Está diseñado para eso y no para utilizar los datos de mala manera. En su parte negativa estaría el uso de esos datos para crear sitios fraudulentos, de imitación, para por ejemplo llevar a cabo ataques Phishing.

Brecha de seguridad de datos

Funcionamiento de Web Scraping y Web Harvesting

Salvando estas diferencias que hemos mencionado, tanto Web Scraping como Web Harvesting tienen un funcionamiento similar. De hecho, como hemos dicho, en ocasiones se utilizan ambos términos indistintamente para referirse a lo mismo. En ambos casos de recopila información de una página web de manera automática. Utilizan para ello diferentes niveles o métodos para llevar a cabo la tarea.

Utilizan programas informáticos diseñados para extraer información de los sitios. Extrae datos del código HTML y de la base de datos. Todos estos datos e información pueden ser utilizados de manera legítima o no, como hemos mencionado. Existen negocios en la red cuya finalidad es recopilar este tipo de información, pero también son muchas las causas por las que se puede optar por Web Scraping o Web Harvesting para acciones maliciosas.

Entre las primeras razones, podemos mencionar a buscadores como Google, rastreadores para comparar precios de productos, empresas que se dedican a hacer análisis de mercado, etc. En cuanto a la extracción de datos para fines maliciosos, podemos mencionar el robo de contenido, crear páginas fraudulentas

En definitiva, podemos decir que Web Scraping y Web Harvesting en muchas ocasiones se utilizan de manera indiferente, pero existen ligeras diferencias de concepto. Eso sí, en ambos casos el objetivo es extraer datos e información de páginas web.

Via: www.redeszone.net