Guía para principiantes sobre el uso de proxies para Web Scraping
Raluca Penciuc el 27 abr 2021
Aunque los raspadores web no necesitan proxies intrínsecamente para funcionar, verás que no puedes llegar muy lejos sin ellos.
Por mucho cuidado que tengas y por mucho que limites o aleatorices el ritmo de peticiones, tarde o temprano acabarás bloqueado. Y ten en cuenta esto: al ralentizar tus peticiones, estás perdiendo más tiempo. ¿No sería mejor simplemente conseguir unos cuantos proxies, pasar por ellos y terminar tu proyecto antes de la muerte por calor del universo?
Eso es lo que pensamos, al menos.
De todos modos, no todos los proxies son iguales. Los precios difieren, la velocidad difiere e incluso las funcionalidades difieren. En este artículo, nos proponemos analizar esas diferencias y aprender a elegir los proxies adecuados para cualquier proyecto. ¿Lo hacemos?
Proxies: el pan de cada día del web scraping
Empecemos con una definición. Cuando accedes a algo a través de Internet (por ejemplo, sitios web o aplicaciones), tu dirección IP, un identificador único en Internet, es visible. Los proxies son intermediarios entre usted y el servidor deseado que enmascaran su IP (así como otros identificadores) al sitio web presentando la suya propia.
Así que, en resumen, los proxies te ayudan a disimular tu huella digital. A continuación, ¿por qué es necesario para el web scraping?
La mayoría de las veces, querrá extraer datos de varias páginas del mismo sitio web. Los scrapers modernos pueden hacerlo en un abrir y cerrar de ojos, pero los humanos reales no. Los sitios web esperan ser visitados por humanos reales, no por robots, así que cuando detectan robots, pueden bloquearlos.
Los sitios web más avanzados cuentan con medidas de seguridad adicionales para disuadir a los robots. Pueden prohibir de forma preventiva las IP proxy conocidas, hacer que su HTML sea más difícil de entender o utilizar funciones CAPTCHA complejas.
Con estos bloqueadores conocidos, obtener los datos que quieres es cuestión de usar los proxies adecuados de la forma correcta. Hay un montón de formas de catalogar los proxies por su anonimato u origen, pero solo hablaremos de los dos tipos más importantes para el web scraping: proxies de centro de datos y proxies residenciales.
Centros de datos proxy
Mientras que una IP normal estaría conectada a un proveedor de servicios de Internet, como cualquier usuario normal de la web, los proxies de centros de datos se almacenan en masa en un servidor en la nube alojado por un tercero.
En pocas palabras, un gran servidor aloja miles y miles de proxies de centros de datos. Además, la infraestructura de nivel empresarial hace que los proxies de centros de datos sean estables y rápidos, al menos los de pago.
Puede que encuentres proxies de centros de datos gratuitos para cualquiera. Aunque en algunos casos pueden funcionar tal y como se anuncian, también podrías estar abriéndote a los piratas informáticos, así que hazlo con cuidado. Además, como es gratis para cualquiera, quién sabe para qué usaron otros las IPs, así que puede que ya estén baneadas en muchos sitios web. Como dice el viejo refrán, obtienes aquello por lo que has pagado.
La abundancia es agradable, pero también significa que todas esas IP comparten una subred, lo cual es menos agradable. La razón es sencilla: tienen algo en común, lo que facilita que los sitios web las detecten todas una vez que encuentran una.
Ventajas del proxy del centro de datos
En primer lugar, el precio. Aunque los costes varían entre los distintos proveedores de servicios, la regla general es que encontrarás proxies de centros de datos a mejores precios que los proxies residenciales, de los que hablaremos en breve.
Como dijimos al presentar el tipo de proxy, están construidos sobre buenos cimientos tecnológicos, por lo que puedes esperar una excelente estabilidad y algunas de las mejores velocidades que un proxy puede ofrecer. Puede que la diferencia entre 0,5 segundos y 0,9 no parezca grande, pero suma cuando realizas miles de peticiones al día.
Otra ventaja de confiar en servidores de primera línea es que tus peticiones se encaminan por defecto a través de los proxies más cercanos, lo que aumenta aún más la velocidad. Puede que Internet sea rápido, pero si estás en Los Ángeles y la página que estás escaneando también está alojada en Estados Unidos, es mejor enrutarla a través de un proxy alojado en la costa oeste, no en Costa de Marfil.
Desventajas del proxy del centro de datos
Al no estar alojados en ningún ISP, los proxies de centros de datos no comparten IP reales, más o menos. El problema es que comparten una subred, un elemento común que facilita a los sitios web la detección de todos ellos una vez que ha encontrado uno.
Aunque los proxies de centros de datos están orientados a la velocidad, pierden algunos puntos cuando se trata de imitar a usuarios reales. Eso puede ser un problema, ya que es más probable que te encuentres con bloqueos mientras extraes datos. Un gran volumen de proxies puede arreglar o al menos mitigar eso, pero recuerda que más proxies significan más costes.
Cuándo utilizar proxies de centro de datos
Estos tipos de IP funcionan bien para un sitio web común y corriente. Si no te enfrentas a serias contramedidas de scraping, los proxies son una solución rentable para extraer datos sin arriesgarte a que bloqueen tu propia IP.
Si realiza el scraping de las mismas páginas con regularidad y sabe que los proxies de centros de datos son una buena opción, puede automatizar el proceso y estar seguro de que obtiene los datos necesarios sin arruinarse.
Delegaciones residenciales
Este tipo de IPs son las que tanto los humanos como los ordenadores asociarían más con los usuarios habituales de la web. El proxy está alojado en un ISP y tiene una ubicación real. En ese sentido, hace el mejor trabajo enmascarando tu IP real, el objetivo de los proxies después de todo.
Mientras que el proveedor de servicios proxy no tiene que mantener un gran servidor que aloje innumerables IPs, sí tiene que encontrar e incorporar un montón de proxies residenciales, todos en diferentes ubicaciones. En realidad, eso es bueno para ti, el usuario, ya que generalmente significa que tendrás acceso a muchas opciones de geolocalización diferentes para eludir las restricciones de contenido regionales.
Ventajas del apoderamiento residencial
En primer lugar, las IPs residenciales son las mejores de las mejores para no ser detectadas y posteriormente bloqueadas. Para algunos, ese es el factor más importante. Con un grupo decente de proxies residenciales, serás capaz de scrapear casi cualquier cosa. Sólo asegúrate de hacerlo de forma ética.
Otro punto a su favor es el hecho de que la mayoría de los proveedores de servicios tendrán proxies repartidos por muchos países, lo que significa que no tendrás que preocuparte por las restricciones geográficas. También es más probable que tengas un proxy cerca de donde se aloja la página web para que las peticiones no tarden mucho.
A diferencia de las IP de los centros de datos, que pueden bloquearse en masa, todas las IP residenciales son únicas. Es mucho menos probable que te bloqueen desde el principio, ya que no hay forma de vincular una IP residencial a otra, aunque utilices ambas.
Desventajas del apoderamiento residencial
Debido a la dificultad de crear un gran grupo de proxies residenciales y a su eficacia, lo más probable es que te resulten más caros que las IP de los centros de datos. La diferencia puede no ser muy grande, pero, de nuevo, se suma cuando usted está haciendo un montón de peticiones cada día.
Dado que trabajarás con IPs de muchas ubicaciones y proveedores de servicios de Internet diferentes, la velocidad puede variar, de proxy a proxy, y de solicitud a solicitud. Encontrar el proveedor adecuado con los servicios más fiables y rápidos es imprescindible.
Cuándo utilizar apoderados residenciales
Este tipo de IP es considerada por muchos la mejor opción para el web scraping. Tiene sus costes, pero las IP residenciales funcionan en casi cualquier página web.
Sitios como Google, Amazon o las plataformas de redes sociales se toman los bots muy en serio, por lo que es muy probable que las IP de los centros de datos no sirvan. Es entonces cuando tienes que recurrir a las IP residenciales, que tienen muchas más posibilidades de conseguir los datos que necesitas.
El siguiente nivel: rotación de proxies
Con un proxy, no tienes que preocuparte de que tu IP real sea bloqueada, pero puede que sigas estando limitado en el número de peticiones que puedes enviar si sólo utilizas un proxy.
Entonces, el siguiente paso lógico es enviar peticiones desde diferentes proxies, para que el sitio web vea diferentes usuarios accediendo a sus páginas. Inteligente, ¿verdad? Pero el problema ahora es que tienes que cambiar manualmente la IP, por lo que todo el tiempo que ganas enviando peticiones más rápido lo pierdes atando los parámetros de la petición.
Aún así, los rascadores web se dedican a automatizar trabajos tediosos, así que ¿por qué no automatizar el proceso de cambiar de proxy? Nos gustaría presentarte el concepto de proxies rotatorios.
La idea de los proxies rotatorios es que el proveedor de servicios utilice una función para que cada vez que hagas una petición a una página web, vaya a través de una IP diferente cada vez. Es lo mismo que cambiar manualmente de proxy, pero sin complicaciones, lo que significa que puedes enviar miles de peticiones sin demora y sin miedo a que te bloqueen.
En ciertos casos, querrás mantener la misma IP para sesiones consecutivas, si tienes que iniciar sesión en el sitio web, por ejemplo. En ese caso, solo tienes que establecer sesiones fijas en las que siempre utilices la misma IP para las páginas especificadas.
En resumen, los proxies rotatorios son la guinda de un buen conjunto de proxies que le garantizan obtener todos los datos que necesita a tiempo y sin que se bloqueen.
Entonces, ¿dónde los consigo?
Hay muchos proveedores de servicios proxy. La mayoría están más orientados a la navegación anónima, ya que ése es el objetivo de los proxies. Pero hay otras empresas orientadas más hacia el web scraping. De hecho, algunos productos de extracción de datos, WebScrapingAPI incluido, vienen con su propio grupo de proxies rotativos para la comodidad de los usuarios.
Llegados a este punto, estás listo para encontrar un proveedor de servicios que pueda ayudarte con tus proyectos, así que sal ahí fuera y busca entre tus opciones. Aquí tienes una buena lista de productos para empezar.
Noticias y actualidad
Manténgase al día de las últimas guías y noticias sobre raspado web suscribiéndose a nuestro boletín.
We care about the protection of your data. Read our <l>Privacy Policy</l>.Privacy Policy.

Artículos relacionados

Aprenda a utilizar Playwright para el scraping web y la automatización con nuestra completa guía. Desde la configuración básica hasta las técnicas avanzadas, esta guía lo abarca todo.


Un grupo de proxies fiable es sólo el primer paso hacia la grandeza del web scraping. El siguiente es rotar esos proxies. Esto es lo que necesitas saber.


La selección del proxy es un paso importante en cualquier proyecto de web scraping. Hoy compararemos las IP dedicadas y compartidas y te propondremos algunos proveedores.
