Perspectivas e ingeniería

Análisis en profundidad de la infraestructura de datos web, las técnicas de extracción y el futuro de los datos estructurados a gran escala.

Últimos artículos

Cómo evitar Cloudflare en 2026: herramientas, código y tácticas

TL;DR: Cloudflare bloquea a los "scrapers" superponiendo huellas dactilares TLS, desafíos JavaScript, análisis de comportamiento y CAPTCHAs Turnstile en una puntuación de confianza compuesta. Para eludir a Cloudflare de forma fiable, es necesario coincidir con todas las capas simultáneamente. Esta guía cubre la pila de detección, compara cuatro herramientas prácticas (Nodriver, SeleniumBase UC, Camoufox, curl-impersonate), y camina a través de estrategias de proxy, persistencia de sesión, solución de problemas de error y escalado de producción.

Mihnea-Octavian Manolache17 min read
Apr 30, 2026

Cómo scrapear YouTube con Python en 2026

TL;DR: Este es un libro de jugadas 2026 sobre cómo scrapear YouTube con Python. Elegirás el método adecuado (Data API v3, yt-dlp, endpoints ocultos /youtubei/v1/, o un scraper gestionado) usando una matriz de decisión, luego ejecutarás código para metadatos de vídeo, comentarios, canales, búsqueda, Shorts y transcripciones, con una sección de producción sobre proxies, cabeceras y 429 backoff para que no te bloqueen.

Raluca Penciuc21 min read
May 8, 2026

Cómo rotar proxies en Python

TL;DR: Esta guía muestra cómo rotar proxies en Python de principio a fin: elige el tipo de proxy correcto, construye y valida un pool, luego rota secuencialmente con itertools.cycle, aleatoriamente con random.choice, o asíncronamente con aiohttp. También emparejamos la rotación de IP con la rotación de User-Agent y añadimos reintentos conscientes del estado para que un solo proxy malo no mate tu scrape.

Raluca Penciuc11 min read
May 8, 2026

Librerías Python Headless Browser para Web Scraping en 2026

TL;DR: Un navegador sin cabeza Python le permite renderizar JavaScript, hacer clic a través de SPAs, y raspar sitios que los clientes HTTP no pueden alcanzar. Selenium es el más seguro por defecto, Playwright es la elección moderna para el nuevo código, Pyppeteer y Splash todavía tienen usos de nicho, y una API de navegador alojado es lo que se busca cuando las defensas anti-bot o la escala comienzan a morder.

Mihnea-Octavian Manolache22 min read
May 1, 2026

Cabeceras HTTP Web Scraping: Deja de ser bloqueado

TL;DR: Las cabeceras HTTP suelen ser la razón por la que tu scraper obtiene un 403 mientras que tu navegador carga la misma URL sin problemas. Esta guía muestra qué cabeceras inspeccionan realmente los sistemas anti-bot, cómo capturar el conjunto de cabeceras de un navegador real desde DevTools, cómo enviarlas y rotarlas correctamente en Python y Node.js, y cuándo el ajuste manual deja de dar resultados y una API de scraping gestionada es la mejor opción.

Raluca Penciuc15 min read
May 13, 2026
123911282930