Extracción de datos con Cheerio: cómo recopilar datos fácilmente de páginas web
Con Cheerio puedes empezar a recopilar datos en cuestión de minutos. Sin complicaciones y sin necesidad de aprender a utilizarlo.
Análisis en profundidad de la infraestructura de datos web, las técnicas de extracción y el futuro de los datos estructurados a gran escala.
Con Cheerio puedes empezar a recopilar datos en cuestión de minutos. Sin complicaciones y sin necesidad de aprender a utilizarlo.
TL;DR: Redfin expone puntos finales de API ocultos que devuelven JSON estructurado para los listados de propiedades, lo que permite omitir por completo el frágil análisis HTML. Esta guía te guía a través de la construcción de un raspador de Python que extrae datos de alquiler y venta, busca por ubicación, supervisa los nuevos listados a través de mapas de sitio XML y exporta resultados limpios a CSV o JSON.
TL;DR: XPath es un lenguaje de consulta para navegar árboles HTML/XML por ruta, atributo o contenido de texto. Esta guía cubre la sintaxis XPath, ejes y funciones, a continuación, muestra raspadores Python de trabajo con lxml y Selenium. También obtendrá una hoja de trucos consolidada y una sección de solución de problemas para los errores más comunes de XPath.
TL;DR: cURL oculta las cabeceras de respuesta por defecto. Utilice -i para ver las cabeceras junto con el cuerpo, -I para una solicitud HEAD que sólo devuelva cabeceras, -v para una depuración completa de solicitud/respuesta y -D para guardar las cabeceras en un archivo. Para scripts modernos, cURL 7.83+ le permite extraer cabeceras individuales o volcarlas todas como JSON con la opción -w write-out.
TL;DR: Un navegador sin cabeza es un navegador web que se ejecuta sin una interfaz gráfica visible, controlado enteramente a través de código o instrucciones de línea de comandos. Los desarrolladores utilizan los navegadores sin cabeza para pruebas automatizadas, web scraping, monitorización del rendimiento y, cada vez más, para potenciar agentes de IA. Esta guía explica cómo funcionan internamente, cuándo elegir uno en lugar de un navegador normal y qué frameworks merecen la pena.
TL;DR: Scrapy-Playwright te permite renderizar páginas con mucho JavaScript directamente dentro de arañas Scrapy controlando navegadores reales Chromium, Firefox o WebKit a través de Playwright. Este tutorial te guía a través de la instalación, configuración, interacciones de página, intercepción AJAX, anti-detección, y una estructura de proyecto lista para producción para que puedas scrapear sitios dinámicos sin dejar el ecosistema Scrapy.
Extrae los listados de hoteles de Expedia con Python utilizando renderizado en JavaScript, proxies, selectores CSS y paginación; a continuación, limpia los datos y expórtalos a un archivo CSV.