Perspectivas e ingeniería

Análisis en profundidad de la infraestructura de datos web, las técnicas de extracción y el futuro de los datos estructurados a gran escala.

Últimos artículos

Cómo extraer datos de Idealista: Un manual para 2026

TL;DR: Idealista es el mercado inmobiliario más grande de España, Italia y Portugal, pero se encuentra detrás de una seria pila anti-bot que bloquea rápidamente a los scrapers ingenuos. Esta guía te guía a través de cómo raspar datos de Idealista de extremo a extremo en Python, cubriendo el mapeo del sitio, Selenium con undetected-chromedriver, manejo de DataDome, rotación de proxy y exportaciones limpias, con endurecimiento de producción que los competidores suelen omitir.

Raluca Penciuc17 min read
May 8, 2026

Cómo raspar Yelp con Python: Reseñas, listados y pipelines de datos listos para el LLM

TL;DR: Esta guía te guía a través de la construcción de un scraper completo de Yelp en Python, cubriendo los resultados de búsqueda, detalles de negocios y reseñas con código de trabajo. También aprenderás cómo manejar las protecciones anti-bot, exportar datos a CSV o JSON, y alimentar reseñas raspadas en un LLM para el análisis de sentimiento, algo que ningún otro tutorial de raspado de Yelp cubre.

Raluca Penciuc16 min read
Apr 28, 2026

10 preguntas sobre raspado que todo equipo de datos debe responder antes de escribir un raspador

TL;DR: Un proyecto de web scraping falla en la planificación mucho antes de fallar en el código. Estas diez preguntas sobre el scraping le guiarán a través de la legalidad, las alternativas de API, las defensas anti-bot, el coste, la cadencia de actualización, la calidad de los datos y la gobernanza, para que pueda evaluar el trabajo, elegir la pila adecuada y evitar los modos de fallo que matan silenciosamente a los scrapers en producción.

Mihai Maxim13 min read
May 8, 2026