Web Scraping simplificado: la importancia del análisis sintáctico de datos

Suciu Dan el 26 abr 2023

El análisis sintáctico de datos es el proceso de analizar y transformar datos estructurados o no estructurados en un formato más específico que diversos sistemas informáticos puedan utilizar y comprender.

Para que este concepto resulte más fácil de entender, he aquí algunos ejemplos de analizadores sintácticos:

Analizadores CSV: para analizar y convertir archivos CSV (valores separados por comas) en formatos más utilizables.
Analizadores JSON: para analizar y convertir datos JSON (JavaScript Object Notation) en formatos más utilizables.
Analizadores Regex: para analizar y extraer patrones específicos de texto mediante expresiones regulares.
Compiladores: para analizar y convertir código escrito en un lenguaje de programación en código legible por máquina en otro lenguaje de programación.
Parsers SQL: para analizar e interpretar una consulta SQL, ejecutar el comando y devolver los resultados.

Cuando se trata de web scraping, el análisis de datos es esencial. Los sitios web se componen de HTML, un lenguaje de marcado excelente para mostrar información en una pantalla, pero no tanto para que lo lean las máquinas.

Cuando hacemos scraping de un sitio web, estamos cogiendo una gran cadena de HTML. Para hacer algo útil con esa información, tenemos que analizarla.

Se tratará la importancia del análisis de datos en el web scraping, así como los distintos tipos de analizadores de datos disponibles, como las bibliotecas de análisis HTML para distintos lenguajes de programación, las expresiones regulares y la creación de un analizador.

Creación de un analizador de datos

Un buen analizador sintáctico de datos puede extraer información relevante de un documento HTML basándose en reglas predefinidas, independientemente del tipo de analizador utilizado. El proceso de análisis sintáctico consta de dos etapas principales: el análisis léxico y el análisis sintáctico.

El análisis léxico es el proceso de analizar palabras y símbolos individuales de un documento y descomponerlos en fragmentos más pequeños y manejables.

Esto implica la tokenización, que es el proceso de descomponer un documento en tokens individuales, como palabras clave, símbolos y números.

Veamos este sencillo documento HTML:

<html>

  <head>

	<title>Scraping</title>

  </head>

  <body>

	<h1>Welcome to my scraping page</h1>

	<p>This is a paragraph.</p>

	<ul>

  	<li>First Scraping Item</li>

  	<li>Second Scraping Item</li>

	</ul>

  </body>

</html>

El proceso de análisis léxico tokenizaría este documento en elementos individuales como:

`<html>`
`<head>`
`<title>`
Raspado
`</title>`
`<body>`
`<h1>`
`Bienvenido a mi página de raspado`
`</h1>`
[...]
`</body>`
`</html>`

De este modo, cada elemento del documento HTML se divide en tokens más pequeños y manejables que pueden analizarse y procesarse posteriormente.

El análisis sintáctico es el proceso de analizar la estructura de un documento y determinar cómo se relacionan entre sí los tokens individuales. Esto implica identificar patrones y estructuras en los datos y utilizar esta información para crear una estructura arborescente denominada árbol de análisis sintáctico.

For example, the <html> tag is the root element, and it contains the <head> and <body> elements. Within the <head> element, there is a <title> element, and within the <body> element, there are <h1>, <p>, and <a> elements.

By identifying these elements and their relationships, you can construct a parse tree, with the <html> element as the root, <head> and <body> as its children, and so on.

You can use the parse tree to extract specific data from the HTML document, such as the text within the <title> element, or the href attribute of the <a> element.

Las mejores bibliotecas de análisis HTML

En esta sección, exploraremos algunas de las bibliotecas de análisis sintáctico de HTML más populares disponibles para diferentes lenguajes de programación. Estas bibliotecas facilitan la extracción de datos estructurados de un documento HTML y pueden ser un gran punto de partida para tu proyecto de web scraping.

Desde Scrapy y BeautifulSoup de Python, hasta Cheerio de NodeJS y JSoup de Java, echaremos un vistazo a cada biblioteca y ofreceremos ejemplos de cómo utilizarlas.

Tanto si eres un principiante como un desarrollador experimentado, esta sección te proporcionará una sólida comprensión de las opciones disponibles cuando trabajes con datos HTML.

¡Empecemos!

Hasta luego

Cheerio es una biblioteca JavaScript que permite a los desarrolladores analizar, manipular y navegar por el DOM de un documento HTML o XML, como lo hace jQuery. Este artículo entra en mucho más detalle sobre Cheerio y habla de diferentes casos de uso.

He aquí una sencilla implementación de cheerio:

const cheerio = require('cheerio');

const $ = cheerio.load('<h2 class="title">Hello, World!</h2>');

console.log($('h2').text())

La ejecución de este código devolverá la siguiente salida:

Hola, mundo.

Scrapy y BeautifulSoup

Scrapy y BeautifulSoup son librerías para web scraping en Python.

Scrapy es un potente framework de web scraping que permite extraer datos estructurados de sitios web mediante selectores o expresiones XPath.

He aquí un ejemplo básico de Scrapy:

import scrapy

class QuotesSpider(scrapy.Spider):

    name = "quotes"

    def start_requests(self):

        urls = [

            'https://quotes.toscrape.com/page/1/',

            'https://quotes.toscrape.com/page/2/',

        ]

        for url in urls:

            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):

        page = response.url.split("/")[-2]

        filename = f'quotes-{page}.html'

        with open(filename, 'wb') as f:

            f.write(response.body)

        self.log(f'Saved file {filename}')

Puede ejecutar el código con este comando:

cotizaciones de scrapy crawl

BeautifulSoup es una librería que permite parsear documentos HTML y XML y extraer datos de ellos de forma similar a como lo hace un navegador web.

He aquí una sencilla implementación de BeautifulSoup:

from bs4 import BeautifulSoup

html_doc = """<html><head><title>Scraper</title></head>

<body>

<h1 class="title">Hello, World!</h1>

</body>"""

soup = BeautifulSoup(html_doc, 'html.parser')

print(soup.title.string)

Ambas bibliotecas proporcionan una API sencilla y cómoda para recorrer, buscar y modificar el contenido de páginas web, y tienen un uso perfecto en proyectos de web scraping.

JSoup

Si tu lenguaje de programación preferido es Java, JSoup es un analizador de datos que proporciona una práctica API para extraer y manipular datos, utilizando lo mejor de DOM, CSS y métodos similares a jQuery.

Esto le permite analizar y navegar por documentos HTML, y cambiar el contenido de un documento utilizando una API sencilla e intuitiva. La librería es perfecta para proyectos de web scraping, web crawling y extracción de datos.

He aquí una sencilla implementación de JSoup para extraer el texto de la etiqueta title:

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

public class JSoupExample {

	public static void main(String[] args) {

    	String html = "<html><head><title>Example Title</title></head>"

            	+ "<body>Hello, World!</body></html>";

    	Document doc = Jsoup.parse(html);

    	// Get the title of the document

    	String title = doc.title();

    	System.out.println("Title: " + title);

	}

}

Nokogiri

Nokogiri es una biblioteca para Ruby que proporciona una interfaz fácil de usar para analizar y buscar documentos XML y HTML y admite selectores XPath y CSS, por lo que se utiliza para tareas de web scraping y extracción de datos.

Para un análisis más exhaustivo de las bibliotecas de analizadores de datos del ecosistema Ruby, puedes leer este artículo.

Utilice este comando para instalar la gema nokogiri:

gem install nokogiri

El siguiente ejemplo de código es una implementación simple de nokogiri:

require "nokogiri"

html = "<!DOCTYPE html><html><head><title>Hello, World!</title></head><body>Hello, World!</body></html>"

parsed_data = Nokogiri::HTML.parse(html)

puts parsed_data.title

Expresiones regulares

Las expresiones regulares, también conocidas como regex, son una potente herramienta para buscar patrones en cadenas de texto. Suelen emplearse en tareas de tratamiento de textos como la búsqueda, la validación y la extracción de información de un documento.

Puedes utilizar expresiones regulares para extraer información de HTML buscando patrones específicos, como extraer direcciones de correo electrónico o encabezados de un documento HTML.

Por ejemplo, para extraer todas las URL de un documento HTML, puede utilizar la siguiente expresión regular:

/https?:\/\/[\w\.-]+\.[a-z]+/gi

Esta expresión coincidirá con cualquier cadena que empiece por "http" o "https" seguida de un ":" y dos barras inclinadas, luego cualquier combinación de caracteres de palabra, puntos y guiones, seguida de un punto y una o más letras minúsculas. La opción "gi" hace que la búsqueda sea global y no distinga entre mayúsculas y minúsculas.

Usar expresiones regulares puede ser un poco complicado, ya que la sintaxis puede ser compleja, y conseguir el patrón exacto puede llevar algo de ensayo y error. También hay algunos sitios como Regex101 o Rubular, que pueden ayudarte a probar y depurar tus expresiones regulares.

Si no desea utilizar las bibliotecas o expresiones regulares disponibles, siempre puede construir su propio analizador sintáctico.

Crear tu propio analizador sintáctico puede ser una buena forma de conocer mejor los datos con los que trabajas y también puede ser una buena opción si tienes requisitos específicos que no cumplen las bibliotecas o herramientas existentes.

Creación de un analizador sintáctico

Construir un analizador sintáctico puede ser una tarea difícil, pero también gratificante. El proceso de construir un analizador sintáctico implica crear un conjunto de reglas e instrucciones que especifiquen cómo se analizan y organizan los datos.

Para ello, puede utilizar diversas técnicas, como expresiones regulares, máquinas de estados y análisis sintáctico descendente recursivo.

Cuando se construye un analizador sintáctico, es fundamental conocer a fondo la estructura y el formato de los datos para poder diseñar un conjunto adecuado de reglas e instrucciones para el analizador. También es importante elegir un lenguaje de programación adecuado.

Una de las ventajas de crear tu propio analizador sintáctico es que puedes adaptarlo a los datos y al caso de uso que tengas entre manos. Esto puede dar lugar a un analizador más eficiente y eficaz, en comparación con el uso de una biblioteca o herramienta genérica.

Además, construir tu analizador sintáctico también puede ser una gran experiencia de aprendizaje, ya que te permite profundizar en los conceptos y técnicas subyacentes del análisis sintáctico de datos.

Construir un analizador sintáctico desde cero también tiene sus desventajas:

Puede llevar mucho tiempo y requerir un gran esfuerzo de diseño e implementación, sobre todo si no se está familiarizado con los algoritmos de análisis sintáctico y las estructuras de datos.
Puede ser difícil conseguir que su analizador sintáctico funcione tan bien como las bibliotecas o herramientas existentes que han sido optimizadas para el rendimiento.
Puede ser difícil mantener y actualizar el analizador sintáctico a lo largo del tiempo si cambia el formato o la estructura de los datos.
Puede ser difícil depurar o encontrar errores en tu código, especialmente si no estás familiarizado con el proceso de análisis.
Podría ser propenso a errores y fallos, lo que podría hacer que el analizador sintáctico no funcionara como se esperaba.
En el caso del análisis sintáctico complejo, podría ser difícil aplicar todas las reglas y casos extremos.
puede que no sea tan eficaz como las bibliotecas y herramientas preexistentes, ya que han sido optimizadas y utilizadas por mucha gente.

En resumen, crear un analizador sintáctico personalizado desde cero tiene su propio conjunto de desventajas, como el elevado tiempo de desarrollo, el alto coste de mantenimiento y el alto riesgo de errores. Por lo general, se recomienda utilizar las bibliotecas o herramientas existentes o utilizar expresiones regulares si pueden satisfacer los requisitos específicos de su caso de uso.

Metadatos Schema.org

El análisis sintáctico de metadatos de schema.org es una forma de extraer datos estructurados de páginas web utilizando los estándares de schema web. La comunidad detrás de schema.org gestiona estos estándares y promueve el uso de schema para datos estructurados en la web.

El análisis sintáctico de metadatos de esquemas puede ser útil por varias razones, como la búsqueda de información actualizada sobre eventos o la recopilación de datos para estudios por parte de investigadores. Además, los sitios web que agregan datos como listados inmobiliarios, ofertas de empleo y previsiones meteorológicas también pueden beneficiarse del análisis sintáctico de datos de esquemas.

Existen diferentes formatos de esquema que puede utilizar, incluidos JSON-LD, RDFa y Microdata.

JSON-LD (JavaScript Object Notation for Linked Data) es un formato para codificar datos enlazados utilizando JSON. El diseño de este estándar facilita su lectura y escritura por humanos y su análisis y generación por máquinas.

Este es el aspecto que tendría JSON-LD en una página web sobre un libro:

<script type="application/ld+json">

{

  "@context": "http://schema.org",

  "@type": "Book",

  "name": "The Adventures of Tom Sawyer",

  "author": "Mark Twain",

  "datePublished": "1876-12-01",

  "description": "The Adventures of Tom Sawyer is a novel about a young boy growing up along the Mississippi River in the mid-1800s. It is a classic of American literature and has been loved by generations of readers.",

  "publisher": "Penguin Books",

  "image": "https://www.example.com/images/tom_sawyer.jpg"

}

</script>

La recomendación del Consorcio World Wide Web (W3C) es RDFa, o Marco de Descripción de Recursos en Atributos, utilizado para incrustar declaraciones RDF en XML y HTML.

A continuación puede ver cómo se vería el RDFa dentro de una página HTML. Puede observar cómo se utilizan los atributos de las etiquetas para almacenar los datos adicionales.

<!DOCTYPE html>

<html>

  <head>

    <title>RDFa Example</title>

  </head>

  <body>

    <div about="http://example.com/books/the-great-gatsby" typeof="schema:Book">

      <h1 property="schema:name">The Great Gatsby</h1>

      <div property="schema:author" typeof="schema:Person">

        <span property="schema:name">F. Scott Fitzgerald</span>

      </div>

      <div property="schema:review" typeof="schema:Review">

        <span property="schema:author" typeof="schema:Person">

          <span property="schema:name">John Doe</span>

        </span>

        <span property="schema:reviewBody">

          A classic novel that explores themes of wealth, love, and the decline of the American Dream.

        </span>

        <span property="schema:ratingValue">4.5</span>

      </div>

    </div>

  </body>

</html>

Los microdatos son una especificación WHATWG HTML que se utiliza para anidar metadatos dentro del contenido existente en las páginas web y pueden utilizar schema.org o vocabularios personalizados.

He aquí un ejemplo de microdatos en HTML:

<div itemscope itemtype="http://schema.org/Product">

  <span itemprop="name">Shiny new gadget</span>

  <img itemprop="image" src="shinygadget.jpg" alt="A shiny new gadget" />

  <div itemprop="offerDetails" itemscope itemtype="http://schema.org/Offer">

    <span itemprop="price">$19.99</span>

    <link itemprop="availability" href="http://schema.org/InStock" />

  </div>

</div>

Hay muchas herramientas disponibles para analizar esquemas en distintos lenguajes, como Extruct de Zyte y la biblioteca RDFLib, que facilitan la extracción de datos estructurados de páginas web utilizando estándares de esquemas web.

Analizadores sintácticos Premium

Hasta ahora, hemos tratado los fundamentos del análisis sintáctico de datos, incluidos los conceptos subyacentes del análisis léxico y sintáctico. También hemos examinado varias bibliotecas de código abierto para el análisis sintáctico de datos, el uso de expresiones regulares, la creación de un analizador sintáctico desde cero y el análisis sintáctico de datos mediante schema.org.

Siempre puedes confiar en un analizador web como WebScrapingAPI SERP API o Amazon API. Estos analizadores web le permiten raspar datos en tiempo real sin tener que preocuparse por el mantenimiento, el código o la infraestructura.

Utilizar un analizador web de primera calidad tiene varias ventajas, entre ellas:

Fiabilidad: Los analizadores web suelen ser más estables y fiables que las alternativas gratuitas o de código abierto, que pueden ser propensas a fallos y errores.
Velocidad: los analizadores web están optimizados para ofrecer velocidad y rendimiento, lo que permite extraer datos de forma rápida y eficaz.
Escalabilidad: Los analizadores web pueden manejar grandes volúmenes de datos y altos niveles de tráfico, lo que los hace adecuados para proyectos de scraping y extracción de datos a gran escala.
Funciones avanzadas: Los analizadores web suelen incluir características y funcionalidades avanzadas, como rotación de IP, suplantación de agente de usuario y resolución de CAPTCHA, que pueden ayudarte a eludir las medidas anti-scraping y acceder a sitios web bloqueados.
Asistencia y mantenimiento: Los analizadores web incluyen asistencia al cliente y actualizaciones periódicas del software, lo que le garantiza el acceso a las últimas funciones y correcciones de errores.

Pero seamos sinceros: los analizadores web premium no sólo aportan ventajas. He aquí algunas desventajas:

Coste: Los analizadores web premium pueden tener un coste más elevado asociado en comparación con las opciones de código abierto
Personalización limitada: La funcionalidad de un analizador web premium puede ser más limitada en comparación con la construcción de su analizador
Dependencia del servicio: Si el servicio se cae o experimenta algún problema, puede interrumpir tu capacidad para analizar los datos.
Control limitado sobre los datos: Con un analizador web premium, es posible que tengas menos control sobre los datos a los que puedes acceder y procesar
Dependencia de las fuentes de datos del proveedor: La calidad y relevancia de los datos proporcionados por el analizador web premium pueden verse limitadas por las fuentes de datos del proveedor.

Conclusión

Este artículo ha proporcionado una visión general del análisis sintáctico de datos, incluido el proceso de análisis, los distintos tipos de bibliotecas de análisis sintáctico de HTML y cómo utilizar los metadatos de schema.org para mejorar el SEO.

También destacamos las ventajas e inconvenientes de crear un analizador sintáctico personalizado, utilizar expresiones regulares y emplear las herramientas existentes.

Una de las principales conclusiones es que el análisis sintáctico de datos es un paso crucial en el raspado web y el análisis de datos, ya que permite extraer y organizar la información de forma útil.

Para ayudarte a empezar, puedes probar nuestra API SERP, una herramienta premium de web scraping que puede ayudarte a extraer fácilmente datos de los motores de búsqueda. Si estás interesado en probarla, no dudes en suscribirte a nuestra prueba gratuita de 14 días.