En resumen: Esta es una guía completa y con un enfoque muy concreto sobre el web scraping con Scrapy en 2026. Instalarás Scrapy, crearás prototipos de selectores en la terminal, desarrollarás una araña de comercio electrónico de varias páginas, limpiarás los elementos con Item Loaders, los guardarás en una base de datos, reforzarás la configuración para evitar bloqueos e integrarás Scrapy-Playwright para páginas renderizadas en JavaScript.
Scrapy ha sido la columna vertebral del rastreo serio con Python durante más de una década y, a pesar de la oleada de nuevas bibliotecas asíncronas, sigue demostrando su valía. Si hoy en día realizas web scraping con Scrapy, dispones de un marco de trabajo con una visión propia que resuelve las partes aburridas (programación de solicitudes, deduplicación, reintentos, flujos de elementos) para que puedas centrarte en las partes que realmente fallan: selectores, antibots y almacenamiento.
Esta guía se estructura en torno al ciclo de vida de las solicitudes y respuestas, en lugar de seguir una progresión cronológica. Cada sección se corresponde con un componente de Scrapy con el que trabajarás en producción, desde el motor y los middlewares de descarga hasta los cargadores de elementos y las exportaciones de feeds. Utilizamos un único objetivo a lo largo de todo el proceso, el sitio de prácticas público books.toscrape.com, de modo que cada bloque de código encaja en un único modelo mental.
Al final tendrás una araña ejecutable que pagina un catálogo, valida y limpia elementos, escribe tanto en JSON Lines como en SQLite, realiza reintentos en 429 casos de error y recurre a un navegador real cuando una página necesita JavaScript. También señalaremos las partes del marco que los principiantes suelen utilizar incorrectamente, con soluciones que se pueden copiar.




