En esencia, los proxies están pensados para ocultar tu IP real. Además, son cruciales para acceder a contenido con restricciones geográficas, ya que los sitios web creen que tus solicitudes provienen de diferentes regiones. El ejemplo más conocido de esto son los sitios de streaming. La serie «The Office», por ejemplo, solo está disponible en Netflix en el Reino Unido e Irlanda, pero si consigues un proxy del Reino Unido, puedes ver la serie desde cualquier lugar.
En el web scraping, el conjunto de proxies es uno de los componentes más críticos. Se utilizan para que parezca que las solicitudes del bot provienen de diferentes ubicaciones y en diferentes momentos. Esta es tu primera línea de defensa contra los bloqueos de IP. Además, si falla, no se bloqueará el acceso de tu IP real al sitio web.
Los rastreadores web, y los bots en general, pueden enviar montones de solicitudes muy rápidamente. Eso es lo que los hace tan deseables para la recopilación de datos. Pero, a menudo, esta velocidad es su perdición. Los sitios web pueden determinar si las solicitudes provienen de una persona legítima o de un bot por su comportamiento. Por ejemplo, un humano nunca solicitaría 25 páginas en menos de un segundo.
Añade un proxy en medio, o mejor aún, todo un conjunto de proxies, y de repente tendrás más opciones. Al distribuir las solicitudes entre varios proxies, estás cambiando lo que ve el sitio web. Es decir, en lugar de una IP que envía 100 solicitudes a la vez, ahora son 10 IP que envían 10 solicitudes cada una. Lo ideal es enviar cada solicitud a través de un proxy diferente.
Puede que pienses que cambiar constantemente de IP es una tarea titánica, y tendrías razón. Por eso los proveedores de servicios de proxy idearon la rotación de proxies: un sistema automatizado que cambia las IP por ti. La rotación de proxies es la mejor manera de asegurarte de que estás aprovechando al máximo todas tus IP.
De hecho, el scraping a gran escala es casi imposible sin un gran conjunto de proxies rotativos. Es importante dosificar el ritmo, y prestar atención al número de solicitudes que puedes enviar en un determinado periodo de tiempo puede marcar la diferencia en tu progreso. Cuanto más amplio sea tu conjunto de proxies, más solicitudes podrás enviar sin levantar sospechas. El resultado es claro: es mucho menos probable que te bloqueen.