Perspectivas e ingeniería

Análisis en profundidad de la infraestructura de datos web, las técnicas de extracción y el futuro de los datos estructurados a gran escala.

Últimos artículos

Cómo raspar tablas HTML en Golang con Colly: Guía de principio a fin

TL;DR: Esta guía muestra cómo raspar tablas HTML en Golang de principio a fin: elegir entre Colly, goquery y golang.org/x/net/html, apuntar al <tbody> correcto, modelar filas como una estructura tipada y exportar JSON y CSV limpios. También obtendrá patrones de paginación, antibloqueo y tablas renderizadas en JavaScript.

Andrei Ogiolan12 min read
May 7, 2026

Playwright Web Scraping: La guía completa para Python y Node.js

TL;DR: Playwright te ofrece una automatización completa del navegador para el scraping de sitios con mucho JavaScript, con soporte de primera clase tanto para Python como para Node.js. Esta guía le guiará a través de la instalación, extracción de elementos, configuración de proxy, antidetección, paginación, descarga de imágenes y exportación de datos a CSV o JSON, todo ello con ejemplos de código en ambos lenguajes.

Mihnea-Octavian Manolache17 min read
Apr 28, 2026

Cómo buscar reseñas en Google Maps: Una guía práctica en Python

TL;DR: Averiguar cómo raspar Google Maps para las revisiones se reduce a tres vías de método: un raspador de Selenium DIY detrás de un proxy giratorio, una API de raspado con instrucciones de renderizado, o una API de revisiones de Maps estructurada que devuelve JSON analizado. Esta guía recorre las tres vías en Python con código copiable y pegable, patrones de paginación, tácticas antibloqueo y un paso final de limpieza que convierte las reseñas sin procesar en algo que una empresa puede utilizar realmente.

Andrei Ogiolan18 min read
May 7, 2026

Cómo utilizar proxies con Python Requests: De lo básico a la producción

TL;DR: Esta guía explica cómo usar proxies con Python Requests de principio a fin: un dictado de proxies funcional, URLs autenticadas, variables de entorno, reutilización de sesiones, SOCKS5 sin fugas de DNS, y un pool de rotación con reintentos y un disyuntor. Al final, usted sabrá cuando una API gestionada gana su sustento sobre una piscina de bricolaje.

Ștefan Răcilă11 min read
May 7, 2026