Dentro de nuestra API, los parámetros de consulta se utilizan para personalizar el rastreador según tus necesidades. Comprender cómo funciona cada parámetro nos permitirá aprovechar todo el potencial de nuestra API de rastreo web. Mantenemos una documentación actualizada de los parámetros de la API aquí. Sin embargo, también vamos a profundizar en ellos aquí, para comprender mejor cómo funcionan los parámetros de consulta con la API de scraping web. Dicho esto, hay tres tipos de parámetros: obligatorios, predeterminados y opcionales. Los obligatorios son bastante sencillos:
- El parámetro `api_key` que hemos comentado anteriormente
- El parámetro `url`, que representa la URL que quieres rastrear
Ten en cuenta que el valor del parámetro `url` debe ser una URL válida, no un nombre de dominio, y lo ideal es que esté codificada como URL (es decir, https%3A%2F%2Fwebscrapingapi.com)
En cuanto a los parámetros predeterminados, hemos utilizado datos históricos para aumentar la tasa de éxito de nuestra API (e implícitamente la de su proyecto). Los datos internos muestran que la mejor configuración para el web scraping es utilizar un navegador web real junto con una dirección IP residencial. Por lo tanto, los parámetros predeterminados de nuestra API son:
- `render_js=1`: para iniciar un navegador real (no un cliente HTTP básico)
- `proxy_type=residential`: para acceder al sitio de destino a través de una dirección IP residencial (solo está habilitado si tu plan actual admite proxies residenciales)
Por supuesto, también puedes sobrescribir el valor de estos parámetros, aunque no lo recomendamos. El scraping con un cliente HTTP básico y proxies de centro de datos suele provocar que el sitio web de destino detecte la actividad de scraping y bloquee el acceso.
A continuación, hablaremos de los parámetros opcionales. Dado que hemos documentado todos los parámetros en nuestra documentación, por ahora solo vamos a tratar los más utilizados:
- Parámetro: render_js Descripción: Al habilitar este parámetro, accederás a la URL de destino a través de un navegador real. Tiene la ventaja de renderizar archivos JavaScript. Es una excelente opción para extraer datos de sitios con mucho JavaScript (como los creados con ReactJS, por ejemplo). Documentación: [aquí ]
- Parámetro: proxy_type Descripción: Se utiliza para acceder a la URL de destino a través de una dirección IP residencial o de un centro de datos. Documentación: [aquí ]
- Parámetro: stealth_mode Descripción: El scraping web no es una actividad ilegal. Sin embargo, algunos sitios web tienden a bloquear el acceso a software automatizado (incluidos los scrapers web). Nuestro equipo ha diseñado un conjunto de herramientas que hace casi imposible que los sistemas antibots detecten nuestro scraper web. Puede habilitar estas funciones utilizando el parámetro stealth_mode=1. Documentación: [aquí ]
- Parámetro: country Descripción: Se utiliza para acceder a su objetivo desde una ubicación geográfica específica. Consulte los países compatibles [aquí]. Documentación: [aquí ]
- Parámetro: timeout Descripción: Por defecto, cancelamos una solicitud (y no cobramos si falla) tras 10 segundos. Con ciertos objetivos, es posible que desee aumentar este valor hasta 60 segundos. Documentación: [aquí ]
- Parámetro: device Descripción: Puedes utilizarlo para que tu rastreador parezca un «ordenador de sobremesa», una «tableta» o un «móvil». Documentación: [aquí ]
- Parámetro: wait_until Descripción: En términos sencillos, una vez que llega a la URL de destino, congela el rastreador hasta que se produzca un evento determinado. El concepto que seguimos se describe mejor [aquí]. Documentación: [aquí ]
- Parámetro: wait_for Descripción: Este parámetro congela el scraper durante un tiempo determinado (que no puede superar los 60 segundos). Documentación: [aquí ]
- Parámetro: wait_for_css Descripción: Congela el rastreador hasta que un determinado selector CSS (es decir, clase o ID) sea visible en la página. Documentación: [aquí ]
- Parámetro: session Descripción: Permite utilizar el mismo proxy (dirección IP) en varias solicitudes. Documentación: [aquí ]