En resumen: Scrapy Splash combina el rápido motor de rastreo de Scrapy con el navegador sin interfaz gráfica Splash para renderizar páginas con gran cantidad de JavaScript. Este tutorial de Scrapy Splash te guía paso a paso por la instalación de Docker, la configuración del proyecto Scrapy, los conceptos básicos de SplashRequest, los scripts de Lua para desplazarse y hacer clic, la integración de un proxy y la resolución de los errores más comunes que encontrarás.
Scrapy es uno de los marcos de rastreo web más eficientes del ecosistema de Python, pero tiene un punto débil bien conocido: no puede ejecutar JavaScript. Cualquier sitio que cargue datos mediante renderización del lado del cliente, llamadas AJAX o marcos de aplicaciones de página única es invisible para una araña Scrapy estándar. Este es precisamente el problema que resuelve este tutorial de Scrapy Splash.
Scrapy Splash es una capa de integración entre Scrapy y el navegador sin interfaz gráfica Splash. Splash es un servicio de renderizado ligero basado en Qt desarrollado por Zyte (el mismo equipo detrás de Scrapy) que expone una API HTTP. En lugar de ejecutar un navegador de escritorio completo, Splash carga una página en un motor WebKit simplificado, ejecuta el JavaScript y devuelve el HTML completamente renderizado a tu araña. Tus métodos de análisis siguen funcionando con selectores CSS y XPath estándar como si nada hubiera cambiado.
En esta guía, instalarás Docker y Splash desde cero, configurarás tu proyecto de Scrapy, escribirás arañas que rendericen páginas dinámicas, crearás scripts de Lua para interacciones avanzadas, conectarás proxies y solucionarás los errores que suelen tropezar a la mayoría de los principiantes.




