El análisis de metadatos de schema.org es una forma de extraer datos estructurados de páginas web utilizando estándares de esquemas web. La comunidad detrás de schema.org gestiona estos estándares y promueve el uso de esquemas para datos estructurados en la web.
El análisis de metadatos de Schema.org puede resultar útil por diversas razones, como encontrar información actualizada sobre eventos o para que los investigadores recopilen datos para sus estudios. Además, los sitios web que agregan datos, como listados inmobiliarios, ofertas de empleo y previsiones meteorológicas, también pueden beneficiarse del análisis de datos de Schema.org.
Existen diferentes formatos de Schema que se pueden utilizar, entre ellos JSON-LD, RDFa y Microdata.
JSON-LD (JavaScript Object Notation for Linked Data) es un formato para codificar datos enlazados utilizando JSON. El diseño de este estándar facilita la lectura y la escritura por parte de los humanos, así como el análisis y la generación por parte de las máquinas.
Así es como se vería JSON-LD en una página web sobre un libro:
<script type="application/ld+json">
{
"@context": "http://schema.org",
"@type": "Book",
"name": "The Adventures of Tom Sawyer",
"author": "Mark Twain",
"datePublished": "1876-12-01",
"description": "The Adventures of Tom Sawyer is a novel about a young boy growing up along the Mississippi River in the mid-1800s. It is a classic of American literature and has been loved by generations of readers.",
"publisher": "Penguin Books",
"image": "https://www.example.com/images/tom_sawyer.jpg"
}
</script>
La recomendación del World Wide Web Consortium (W3C) es RDFa, o Resource Description Framework in Attributes, que se utiliza para incrustar declaraciones RDF en XML y HTML.
A continuación puedes ver cómo se vería el RDFa dentro de una página HTML. Puedes observar cómo se utilizan los atributos de las etiquetas para almacenar los datos adicionales.
<!DOCTYPE html>
<html>
<head>
<title>RDFa Example</title>
</head>
<body>
<div about="http://example.com/books/the-great-gatsby" typeof="schema:Book">
<h1 property="schema:name">The Great Gatsby</h1>
<div property="schema:author" typeof="schema:Person">
<span property="schema:name">F. Scott Fitzgerald</span>
</div>
<div property="schema:review" typeof="schema:Review">
<span property="schema:author" typeof="schema:Person">
<span property="schema:name">John Doe</span>
</span>
<span property="schema:reviewBody">
A classic novel that explores themes of wealth, love, and the decline of the American Dream.
</span>
<span property="schema:ratingValue">4.5</span>
</div>
</div>
</body>
</html>
Microdata es una especificación HTML de WHATWG que se utiliza para anidar metadatos dentro del contenido existente en páginas web y puede utilizar schema.org o vocabularios personalizados.
A continuación se muestra un ejemplo de microdatos en HTML:
<div itemscope itemtype="http://schema.org/Product">
<span itemprop="name">Shiny new gadget</span>
<img itemprop="image" src="shinygadget.jpg" alt="A shiny new gadget" />
<div itemprop="offerDetails" itemscope itemtype="http://schema.org/Offer">
<span itemprop="price">$19.99</span>
<link itemprop="availability" href="http://schema.org/InStock" />
</div>
</div>
Existen muchas herramientas disponibles para analizar esquemas en diferentes lenguajes, como Extruct de Zyte y la biblioteca RDFLib, lo que facilita la extracción de datos estructurados de páginas web utilizando estándares de esquemas web.