En resumen: XPath es un lenguaje de consulta que permite navegar por árboles HTML/XML mediante rutas, atributos o contenido de texto. Esta guía aborda la sintaxis, los ejes y las funciones de XPath, y a continuación muestra ejemplos prácticos de rastreadores en Python con lxml y Selenium. También encontrarás una hoja de referencia consolidada y una sección de resolución de problemas para los errores más comunes de XPath.
XPath (XML Path Language) es un lenguaje de consulta que selecciona nodos de documentos XML y HTML utilizando expresiones de ruta. Si los selectores CSS te parecen demasiado limitados para tus tareas de scraping, el scraping web con XPath es el siguiente paso lógico.
Mientras que los selectores CSS solo se desplazan hacia adelante y hacia abajo a través del DOM, XPath recorre el árbol en cualquier dirección: hacia arriba hasta un padre, lateralmente hacia un hermano o en profundidad hacia descendientes anidados. También puede hacer coincidir elementos por su texto visible, una capacidad de la que CSS carece por completo. Estas características hacen que XPath para el scraping web sea especialmente valioso en páginas complejas o mal estructuradas.
En este tutorial aprenderás la sintaxis básica de XPath (rutas, predicados, ejes, funciones), verás cómo probar expresiones en tu navegador y crearás rastreadores reales en Python con lxml y Selenium. También abordaremos los errores comunes que hacen fallar a los selectores XPath en producción y cómo evitarlos.




