Perspectivas e ingeniería

Análisis en profundidad de la infraestructura de datos web, las técnicas de extracción y el futuro de los datos estructurados a gran escala.

Últimos artículos

Web Scraping con PHP: Guía práctica de bibliotecas, código y buenas prácticas

TL;DR: PHP es un lenguaje perfectamente apto para el web scraping, gracias a extensiones integradas como cURL y DOMDocument, además de un rico ecosistema Composer que incluye Guzzle, Symfony DomCrawler y Symfony Panther para la navegación headless. Esta guía te guía a través del flujo de trabajo completo: obtención de páginas, análisis sintáctico de HTML, almacenamiento de resultados en CSV/JSON/MySQL, gestión de errores y evitación de bloqueos.

Sorin-Gabriel Marica19 min read
Apr 30, 2026

¿Qué son los proxies rotatorios? Guía de rotación de IP para Web Scraping

TL;DR: ¿Qué son los proxies rotatorios, en una línea? Son servidores proxy que asignan una IP diferente a cada petición de un pool gestionado, que es como los scrapers se escabullen de los límites de tasa por IP, CAPTCHAs y geo-filtros. Esta guía explica cómo funciona la rotación, los cuatro tipos de grupos, el código de configuración en tres idiomas y cómo elegir un proveedor.

Raluca Penciuc13 min read
May 13, 2026

XPath Cheat Sheet para Web Scraping: Sintaxis, ejes y código real

TL;DR: Esta hoja de trucos XPath cubre la sintaxis, predicados, ejes y funciones que realmente necesita para el web scraping, además de una tabla de traducción de CSS a XPath y ejemplos ejecutables de Puppeteer y Scrapy. Úsala como referencia de escritorio la próxima vez que un selector CSS se rompa silenciosamente en un sitio del que dependas.

Mihai Maxim15 min read
May 13, 2026

Cómo construir un rastreador web en Python: De principio a fin

TL;DR: Un rastreador web python automatiza el tedioso trabajo de seguir enlaces a través de un sitio web para descubrir y recopilar contenido. Esta guía le guiará a través de la construcción de uno desde cero con las solicitudes y BeautifulSoup, luego graduarse a Scrapy para el rastreo concurrente, tuberías de artículos, y las exportaciones de datos estructurados. También aprenderá a rastrear de forma responsable, rotar proxies para evitar bloqueos y manejar páginas renderizadas en JavaScript.

Suciu Dan33 min read
Apr 30, 2026