Perspectivas e ingeniería

Análisis en profundidad de la infraestructura de datos web, las técnicas de extracción y el futuro de los datos estructurados a gran escala.

Últimos artículos

Cómo extraer datos de una tabla HTML en JavaScript

¿Te interesa extraer datos de tablas HTML de la web utilizando JavaScript? En este artículo descubrirás cómo utilizar la biblioteca cheerio junto con Node.js para extraer fácilmente datos de tablas de cualquier sitio web.

Mihai Maxim8 min read
Apr 22, 2026

Análisis de HTML en Java con Jsoup

TL;DR: Jsoup es la biblioteca por defecto para el análisis sintáctico de HTML en Java. Esta guía recorre el ciclo de vida completo (configuración de Maven, carga de un documento, selectores CSS, DOM traversal, extracción, modificación y serialización), además de un proyecto de scraping ejecutable, manejo de errores, paginación y los límites que te empujan hacia un navegador sin cabeza o una API de scraping.

Mihai Maxim13 min read
May 12, 2026

Cómo probar los servidores proxy

Utiliza esta guía para dominar las pruebas de proxy. Aprende a utilizar herramientas en línea para comprobar las conexiones de proxy, la ubicación y el anonimato. Optimiza el uso de tu proxy y resuelve los problemas que puedan surgir.

Mihai Maxim6 min read
Apr 10, 2026

Python Extraer Texto De HTML

TL;DR: Para extraer texto de HTML en Python, analice el marcado con un analizador real (BeautifulSoup, lxml.html o html-text), elimine los scripts, estilos y cromo del sitio, y luego normalice los espacios en blanco y Unicode antes de guardar. Esta guía compara las principales bibliotecas, corrige las trampas comunes de limpieza, y termina con un rastreador ejecutable que escribe JSONL más archivos .txt por página.

Mihai Maxim26 min read
May 12, 2026