Volver al blog
La ciencia del web scraping
Mihnea-Octavian ManolacheLast updated on Mar 31, 202610 min read

Los mejores navegadores antidetección para un web scraping seguro y eficaz

Los mejores navegadores antidetección para un web scraping seguro y eficaz

La detección es un gran problema en el sector del web scraping. Es como un juego constante del gato y el ratón entre los scrapers y los sistemas antibots. Y el uso de un navegador antidetección se ha convertido en un requisito imprescindible para cualquiera que quiera extraer datos. Pero los navegadores antidetección no se limitan al web scraping. La gente los ha utilizado para cosas como gestionar múltiples cuentas en redes sociales, comercio electrónico, etc. Incluso los usuarios interesados en la privacidad pueden beneficiarse de un navegador antidetección.

El artículo de hoy tratará precisamente este tema. Vamos a hablar de los navegadores antidetección, sus casos de uso, su eficacia y qué proveedor elegir en 2023. También os voy a hablar del «browser fingerprinting». Así que preparaos, porque hoy hay mucho de lo que hablar.

¿Qué es un navegador antidetección?

En parte, la definición de un navegador antidetección viene dada por el propio nombre. Cada navegador convencional (por ejemplo, Chrome o Firefox) tiene su propia identidad en línea. A esto lo llamamos huella digital. La forma en que se toma la huella digital de tu navegador es muy compleja. Tiene que ver con aspectos como:

  • Tu dirección IP
  • El agente de usuario que enviáis con vuestras solicitudes
  • Las propiedades de tu navegador

Ahora bien, diría que este último es el más importante. Esto se debe a que cualquiera en Internet puede crear un script relativamente sencillo para obtener ciertas propiedades de un navegador. Y lo más importante es que, casi siempre, la combinación de estos valores genera una configuración del sistema única. En la práctica, se puede generar un hash de los valores combinados y convertidos en cadena de estas propiedades y crear una huella digital. Tomemos como ejemplo FingerprintJS o CreepJS.

Además, la detección no se limita al ámbito de la ventana. Incluso he creado esta herramienta que puede detectar evasiones como las implementadas con `puppeteer-extra-plugin-stealth` comparando los valores recopilados de la ventana y los trabajadores. Pero ese es un tema más complejo. Por ahora, parece que la mejor manera de pasar desapercibido en línea es utilizar un navegador antidetección.

Y volvemos al tema. Los navegadores antidetección son aplicaciones basadas en navegadores conocidos que han sido modificados para aceptar valores personalizados para las propiedades que hemos comentado anteriormente. Dado que proyectos como Chromium o Mozilla son de código abierto, cualquiera puede bifurcarlos y crear su propia versión de un navegador. Y eso es exactamente lo que ocurre también con los navegadores antidetección.

Tú también puedes clonar Chromium, por ejemplo, y modificarlo para que utilice valores aleatorios en diversas propiedades del navegador. Pero, en la práctica, esto requiere muchos conocimientos y recursos. Por eso existen algunos proveedores conocidos, de los que hablaremos en un momento. Pero primero:

¿Para qué sirve un navegador antidetección?

Hay muchos casos de uso para los navegadores antidetección. Sin embargo, hay sectores que dependen de estos navegadores más que otros. Por eso voy a ser específico sobre cuáles son los casos de uso de los navegadores antidetección y por qué se utilizan. Así que, entendiendo que su mayor fortaleza es el anonimato, estos son los casos de uso más comunes de un navegador web antidetección:

  • Agencias de marketing: Los afiliados de marketing o las agencias de redes sociales suelen tener que gestionar múltiples cuentas en redes sociales. En la práctica, las plataformas de redes sociales prohíben el acceso a este tipo de actividades. Lo ideal, desde su punto de vista, es que un dispositivo solo gestione una cuenta. Más cuentas podrían dar lugar a abusos. Dado que los navegadores anti-detección crean más de una identidad, se pueden utilizar fácilmente para gestionar este tipo de actividad.
  • Vendedores de comercio electrónico: Existe una práctica común (aunque tácita) entre los vendedores de Amazon o los drop-shippers de utilizar múltiples cuentas para vender sus productos. Esto aumenta su alcance e, implícitamente, sus ventas. Una vez más, las grandes plataformas de comercio electrónico no suelen permitir tales prácticas. Y, una vez más, los navegadores antidetección pueden entrar en juego.
  • Web scraping: En los últimos años, el web scraping se ha convertido en un verdadero reto. Identificar un controlador web (navegador automatizado) es más fácil hoy en día que hace un par de años. Y, como probablemente ya habrás adivinado, casi cualquier sitio web intenta evitar los bots. Dado que los web scrapers entran en esta categoría, los sitios web suelen intentar bloquear su acceso.

¿Qué eficacia tienen los navegadores antidetección en la práctica?

Dependiendo del proveedor, los navegadores antidetección pueden ser bastante eficaces. Al trabajar en el modo sigiloso de las API de web scraping, tuve la oportunidad de experimentar con diversas técnicas de evasión. Una de ellas consistió en probar los navegadores antidetección. Puede que resulte sorprendente, pero fuimos capaces de identificar los navegadores automatizados para Puppeteer y Selenium parcheados, pero no para los navegadores antidetección.

Como capa adicional de eficacia, descubrimos mediante pruebas que los valores utilizados para generar huellas digitales personalizadas también son importantes para detectar los controladores web. Por ejemplo, los valores aleatorios son un «no-no». En su lugar, al generar una huella digital, intenta:

  • Utilizar agentes de usuario reales
  • Utilizar plataformas de dispositivos que coincidan con el agente de usuario
  • Añadir matrices de complementos de navegador reales

Y eso por nombrar solo algunos. La clave es utilizar información real y coherente. Además, si eliges un proveedor, intenta seguir sus recomendaciones.

Los mejores navegadores antidetección en 2023

En un artículo relacionado dije que el mejor navegador antidetección es el que uno mismo crea. Pero, sinceramente, crear un navegador, incluso cuando se parte de un proyecto de código abierto, requiere mucho esfuerzo. Así que, si no dispone de los recursos para formar un equipo, es mejor que opte por uno de estos proveedores:

N.º 1: GoLogin

GoLogin es nuevo en el panorama de los navegadores antidetección. Sin embargo, esto no lo hace menos eficiente. Lo primero que me llamó la atención fueron los canales de asistencia. Están disponibles no solo por correo electrónico o chat, sino también a través de WhatsApp, Telegram y Facebook Messenger. La segunda mención destacada sobre GoLogin es su compatibilidad con proxies. Su navegador viene repleto de proxies de forma predeterminada. Y la tercera tiene que ver con el acceso. GoLogin cuenta con una aplicación de escritorio, una aplicación móvil y una aplicación web que puedes utilizar. Puedes acceder a su herramienta desde la nube, lo cual es bastante impresionante.

El navegador en sí está basado en Google Chrome. Se modificó para generar nuevas huellas digitales para cada perfil. Una desventaja es que, en lugar de falsificar todos los valores, también añaden ruido a algunos. Y las pruebas indican que esto puede dar lugar a más captchas, lo que sugiere que los sistemas antibot aún pueden detectar cierta actividad automatizada.

En cuanto al precio, GoLogin parte de 49 USD al mes y llega hasta los 199 USD. También ofrecen un plan personalizable. Llega hasta los 1999 USD al mes por 10 000 perfiles en la nube y otras ventajas. Además, obtienes un descuento del 50 % si pagas anualmente. Puedes consultar su página de precios para obtener más información. En resumen:

N.º 2: Multilogin

Según su sitio web, Multilogin ofrece «personalización completa de la huella digital». Esto significa que obtienes acceso completo a las propiedades del navegador y puedes modificarlas de numerosas formas. Además, son uno de los pocos proveedores que no desactivan las funciones del navegador. Desactivar funciones del navegador (como los service workers) no delata inmediatamente a un navegador automatizado. Sin embargo, los usuarios habituales rara vez, o nunca, desactivan dichas funciones. Y eso puede levantar sospechas para los detectores de bots.

Volvamos a Multilogin. Lo que hicieron fue crear una bifurcación de Chrome y Firefox y desarrollar sus propias versiones personalizables. Su interfaz gráfica de usuario te permite generar un perfil rápido (con una huella digital asociada) o falsificar ciertos valores tú mismo. Diría que el único inconveniente de Multilogin es el precio. Empieza en 99 USD al mes y puede llegar hasta los 399 USD al mes. Eso es en el momento en que escribo esto. Para conocer los precios actualizados, consulta su página de precios. Para terminar, aquí tienes un resumen:

N.º 3: AdsPower

Al igual que Multilogin, AdsPower ofrece dos navegadores antidetección. Uno está basado en Chromium y se llama Sun Browser. El segundo está basado en Firefox y se llama Flower Browser. Ambos tienen la capacidad añadida de gestionar la huella digital del navegador. Lo interesante de este navegador antidetección es que tiene funciones de automatización integradas. Se requiere muy poca o ninguna programación para automatizar tareas utilizando la Automatización Robótica de Procesos de AdsPower.

La empresa se fundó en 2019 en Hong Kong y creció rápidamente hasta convertirse en uno de los principales competidores de Multilogin. Parte de su éxito radica en las increíbles capacidades que ofrecen los navegadores. La otra parte, creo, se debe a los bajos precios. AdsPower incluso tiene un plan gratuito que te da acceso a dos perfiles y su plan pro cuesta solo 50 USD al mes. A título personal, me parece la solución más atractiva. Y con esto, terminemos:

N.º 4: X-Browser

Con X-Browser, el navegador antidetección en sí mismo es gratuito. Y eso puede ser una característica bastante atractiva. El navegador lo ofrece Smartproxy y se puede descargar gratis. La «trampa» aquí es que hay que pagar por los proxies. Sin embargo, en realidad no tiene ningún inconveniente. Y eso es porque, con cualquiera de las dos opciones, necesitas proxies para ocultar tu IP y evitar que te bloqueen.

Limitar X-Browser a sus propios proxies puede ser algo bueno y malo al mismo tiempo. Por un lado, el usuario puede confiar en que Smartproxy ofrecerá una solución optimizada para sus proxies. Por otro lado, solo puedes usar proxies de Smartproxy. Estar limitado a un único proveedor significa estar limitado a la calidad de su servicio. Y si quieres ampliar tu actividad, creo que necesitas más flexibilidad.

Dado que solo pagas por los proxies, los precios de X-Browser son bastante razonables. Sus proxies de centro de datos oscilan entre 10 y 45 USD al mes. Los proxies residenciales pueden resultar un poco caros, pero todo depende de cuánto los uses. Consulta los precios aquí. Resumamos lo visto sobre X-Browser:

N.º 5: Kameleo

Kameleo es todo un camaleón. Es compatible con los principales navegadores web (Chrome, Safari, Firefox y Edge) y se puede utilizar con los principales marcos de automatización (Puppeteer, Selenium y Playwright). Y además de esto, también ofrecen personalización de huellas digitales para dispositivos móviles. Según su página web, Kameleo Mobile se puede utilizar para falsificar tu huella digital en cualquier dispositivo Android.

A diferencia de sus competidores, el servicio de Kameleo no se centra en los navegadores, sino en los perfiles de navegador. Es decir, no modifican necesariamente un navegador de código abierto para crear su propia versión.

Hicimos algunas pruebas con su plataforma y la principal desventaja que encontramos fue la atención al cliente. Puede ser realmente lenta. Aparte de eso, el precio es bueno: de 59 a 199 USD al mes. Así que resumamos:

N.º 6: Incognito

Incognito es otro navegador antidetección con un plan gratuito. Y, a diferencia de AdsPower, ofrece acceso a 10 perfiles de navegador gratuitos. Su navegador está basado en Chromium y ofrece prácticamente las mismas funciones que el resto de navegadores antidetección. El producto también cuenta con una API que te permite interactuar con el navegador sin interfaz gráfica. Aparte del generoso plan gratuito, sus precios oscilan entre 29,99 y 149,99 USD al mes. Diría que es un precio justo por lo que ofrecen. Y con esto terminamos:

N.º 7: Linken Sphere

Linken Sphere es un navegador antidetección basado en Chromium y ofrecido por el grupo ruso Tenebris. Se lanzó en 2017, lo que lo convierte en una de las soluciones más antiguas del mercado. La principal desventaja es que parece bastante sospechoso. Por el momento, solo aceptan pagos en bitcoins y ofrecen soporte principalmente a través de su canal de Telegram. Además, se sabe que se utiliza en actividades ilegales, como el hacking o el fraude. Aparte de eso, cumple bastante bien con su función. Y con esto, voy a dar por concluido el artículo:

Conclusiones

La huella digital del navegador puede dificultar enormemente el web scraping. Si quieres pasar desapercibido, debes tener en cuenta muchos aspectos. Los proxies, los solucionadores de captchas y un navegador sin interfaz gráfica (headless) son solo algunos de los «ingredientes» de un web scraper fiable. Sumar todo esto puede generar unos costes de desarrollo y mantenimiento muy elevados. La alternativa es utilizar un servicio de web scraping de terceros ya consolidado. Y Web Scraping API ofrece exactamente eso. Y me atrevería incluso a decir que todo ello a una fracción del coste.

Acerca del autor
Mihnea-Octavian Manolache, Desarrollador Full Stack @ WebScrapingAPI
Mihnea-Octavian ManolacheDesarrollador Full Stack

Mihnea-Octavian Manolache es ingeniero Full Stack y DevOps en WebScrapingAPI, donde se encarga de desarrollar funciones para los productos y de mantener la infraestructura que garantiza el buen funcionamiento de la plataforma.

Empieza a crear

¿Estás listo para ampliar tu recopilación de datos?

Únete a más de 2000 empresas que utilizan WebScrapingAPI para extraer datos de la web a escala empresarial sin ningún gasto de infraestructura.