Perspectivas e ingeniería

Análisis en profundidad de la infraestructura de datos web, las técnicas de extracción y el futuro de los datos estructurados a gran escala.

Últimos artículos

Cheerio vs Titiritero: Cómo elegir la herramienta adecuada

TL;DR: Cheerio es un analizador HTML ligero; Puppeteer maneja un navegador Chromium real. Usa Cheerio cuando los datos ya estén en el HTML crudo, Puppeteer cuando JavaScript los renderice, y combínalos cuando una página con mucho JS tenga muchos campos que extraer por visita.

Sergiu Inizian9 min read
May 8, 2026

¿Qué es la automatización de navegadores? Guía práctica

TL;DR: La automatización del navegador es la práctica de manejar un navegador web real o headless desde el código para que haga clic, escriba, navegue y lea páginas en tu nombre. Esta guía explica qué es la automatización del navegador bajo el capó, compara Selenium, Playwright, Puppeteer y Cypress, y muestra cuándo no llegar a un navegador completo.

Ștefan Răcilă13 min read
May 8, 2026

Los mejores cursos de Web Scraping para desarrolladores

TL;DR: Los mejores cursos de web scraping dependen de tu idioma, nivel y caso de uso objetivo. Esta guía compara cinco opciones de pago entre Udemy, Coursera, DataCamp y Packt, señala complementos gratuitos como documentos oficiales y muestra cómo pasar de terminar un curso a ejecutar scrapers de producción.

Ștefan Răcilă12 min read
May 8, 2026

Cómo raspar Realtor.com: Guía práctica 2026

TL;DR: Si estás trabajando en cómo scrapear Realtor.com limpiamente, hay tres cosas que importan más: selectores estables que sobrevivan a sus nombres de clase hash, una capa de petición que sobreviva a la pila anti-bot de Realtor, y código que recorra tanto las páginas de listado como las de detalle. Esta guía es la compilación completa en Python, con tácticas antibloqueo y exportaciones preparadas para LLM.

Raluca Penciuc15 min read
May 8, 2026

Web Scraping Booking.com: Hoteles, precios y reseñas (Guía 2026)

TL;DR: Esta guía te guía a través del raspado web de Booking.com de principio a fin en Python: extrayendo listados de búsqueda, páginas de hoteles, precios por noche y opiniones de huéspedes. Obtendrás dos métodos complementarios: un flujo de trabajo Selenium Wire para páginas renderizadas en JS y una ruta más rápida que llama directamente al punto final interno /dml/graphql de Booking.com, además de un libro de jugadas antibloqueo, manejo de divisas y una solución para el límite de paginación de aproximadamente 1.000 resultados.

Raluca Penciuc16 min read
May 8, 2026