Perspectivas e ingeniería

Análisis en profundidad de la infraestructura de datos web, las técnicas de extracción y el futuro de los datos estructurados a gran escala.

Todo Guías La ciencia del web scraping Casos de uso Ingeniería Otros

Guías

Extracción de datos con Cheerio: cómo recopilar datos fácilmente de páginas web

Con Cheerio puedes empezar a recopilar datos en cuestión de minutos. Sin complicaciones y sin necesidad de aprender a utilizarlo.

Raluca Penciuc8 min readApr 27, 2026

Leer artículo

Últimos artículos

Guías

Cómo raspar Redfin: Guía Python de Datos Inmobiliarios

TL;DR: Redfin expone puntos finales de API ocultos que devuelven JSON estructurado para los listados de propiedades, lo que permite omitir por completo el frágil análisis HTML. Esta guía te guía a través de la construcción de un raspador de Python que extrae datos de alquiler y venta, busca por ubicación, supervisa los nuevos listados a través de mapas de sitio XML y exporta resultados limpios a CSV o JSON.

Suciu Dan14 min read

Apr 27, 2026

Guías

XPath Web Scraping: Guía práctica con ejemplos en Python

TL;DR: XPath es un lenguaje de consulta para navegar árboles HTML/XML por ruta, atributo o contenido de texto. Esta guía cubre la sintaxis XPath, ejes y funciones, a continuación, muestra raspadores Python de trabajo con lxml y Selenium. También obtendrá una hoja de trucos consolidada y una sección de solución de problemas para los errores más comunes de XPath.

Suciu Dan11 min read

Apr 29, 2026

La ciencia del web scraping

Cabeceras de Respuesta HTTP en cURL: Cada Bandera, Técnica y Receta de Scripting

TL;DR: cURL oculta las cabeceras de respuesta por defecto. Utilice -i para ver las cabeceras junto con el cuerpo, -I para una solicitud HEAD que sólo devuelva cabeceras, -v para una depuración completa de solicitud/respuesta y -D para guardar las cabeceras en un archivo. Para scripts modernos, cURL 7.83+ le permite extraer cabeceras individuales o volcarlas todas como JSON con la opción -w write-out.

Suciu Dan13 min read

Apr 29, 2026

La ciencia del web scraping

¿Qué es un Headless Browser? Arquitectura, casos de uso y principales herramientas

TL;DR: Un navegador sin cabeza es un navegador web que se ejecuta sin una interfaz gráfica visible, controlado enteramente a través de código o instrucciones de línea de comandos. Los desarrolladores utilizan los navegadores sin cabeza para pruebas automatizadas, web scraping, monitorización del rendimiento y, cada vez más, para potenciar agentes de IA. Esta guía explica cómo funcionan internamente, cuándo elegir uno en lugar de un navegador normal y qué frameworks merecen la pena.

Suciu Dan16 min read

Apr 29, 2026

Guías

Tutorial de Scrapy Playwright: Scrapear sitios con JavaScript a gran escala

TL;DR: Scrapy-Playwright te permite renderizar páginas con mucho JavaScript directamente dentro de arañas Scrapy controlando navegadores reales Chromium, Firefox o WebKit a través de Playwright. Este tutorial te guía a través de la instalación, configuración, interacciones de página, intercepción AJAX, anti-detección, y una estructura de proyecto lista para producción para que puedas scrapear sitios dinámicos sin dejar el ecosistema Scrapy.

Raluca Penciuc21 min read

Apr 28, 2026

Guías

Cómo extraer datos de Expedia con Python: hoteles, precios y valoraciones (Guía 2026)

Extrae los listados de hoteles de Expedia con Python utilizando renderizado en JavaScript, proxies, selectores CSS y paginación; a continuación, limpia los datos y expórtalos a un archivo CSV.

Mihai Maxim14 min read

Apr 27, 2026

2 328 29 30