Perspectivas e ingeniería

Análisis en profundidad de la infraestructura de datos web, las técnicas de extracción y el futuro de los datos estructurados a gran escala.

Todo Guías La ciencia del web scraping Casos de uso Ingeniería Otros

Últimos artículos

Guías

7 mejores API de SERP en 2026: Comparación de precios y características

TL;DR: No existe una API SERP oficial de Google, por lo que proveedores externos cubren este vacío. Los precios oscilan aproximadamente entre 0,30 y 15 dólares por cada mil búsquedas, y la elección correcta depende del volumen, el presupuesto y las funciones de las SERP que necesites extraer. En esta guía se comparan los principales proveedores, se desglosa el coste real a escala y se ofrece un marco de decisión para preseleccionar la mejor API de SERP para tu proyecto.

Andrei Ogiolan22 min read

May 1, 2026

Casos de uso

XPath vs Selectores CSS: Elegir el correcto

TL;DR: Tanto XPath como los selectores CSS localizan elementos DOM, pero resuelven problemas diferentes. Los selectores CSS son más rápidos y más legibles para selecciones sencillas. XPath gana cuando se necesita recorrer el DOM en cualquier dirección, hacer coincidir contenido de texto o manejar lógica condicional compleja. La mayoría de los proyectos de producción se benefician del uso estratégico de ambos.

Mihai Maxim15 min read

May 1, 2026

Guías

Cómo configurar Axios Proxy en Node.js: Auth, Rotación, SOCKS5

TL;DR: Axios enruta las peticiones a través de un proxy aceptando un objeto proxy con los campos host, port y auth opcional. Esta guía cubre cómo establecer la configuración del proxy Axios desde cero: cableado básico, proxies autenticados, tunelado HTTPS, un sistema de rotación usando interceptores, SOCKS5 vía socks-proxy-agent, y diagnóstico de errores comunes. Cada fragmento es código Node.js copiable y pegable.

Suciu Dan12 min read

May 1, 2026

Guías

Archivo de descarga de Puppeteer: 4 métodos para Node.js

TL;DR: Un flujo de trabajo de descarga de archivos de Puppeteer tiene cuatro buenas formas: haga clic en un botón y deje que Chrome escriba en una carpeta que usted controla, ejecute fetch() dentro de la página y la tubería base64 de vuelta a Node, dirija el protocolo DevTools de Chrome con eventos de progreso de descarga, o salte el navegador y obtenga la URL con Axios usando cookies cosechadas de la sesión de Puppeteer. Elige por tamaño de archivo, autenticidad, y cómo el sitio expone el enlace.

Mihnea-Octavian Manolache41 min read

May 2, 2026

Guías

Cómo utilizar un proxy en Node-Fetch: Guía práctica

TL;DR: Node-Fetch no tiene un interruptor de proxy incorporado, por lo que debe conectar un agente HTTP, HTTPS o SOCKS5 a la solicitud a través de su opción de agente. Esta guía explica cómo usar un proxy en Node-Fetch de principio a fin: proxies HTTP y HTTPS autenticados, SOCKS5, rotación, reintentos, casos extremos de TLS, resolución de problemas y la ruta moderna undici para Node 18+ native fetch.

Mihnea-Octavian Manolache13 min read

May 1, 2026

Guías

Web Scraping Tablas JavaScript en Python: De las API ocultas a Playwright

TL;DR: Web scraping JavaScript tables in Python raramente necesita un navegador headless. Abra DevTools, encuentre el punto final JSON que hidrata la cuadrícula, reprodúzcala con solicitudes, pagínela y vuelva a Playwright solo cuando la llamada de red esté firmada, cifrada o sellada de alguna otra forma.

Andrei Ogiolan13 min read

May 7, 2026

1 2 3528 29 30