Cloudflare bloquea las peticiones de scraping


pacorisas

Miembro muy activo
Noder
El caso es que estoy intentando hacer scraping de una pagina web para obtener el precio de unos articulos y mis peticiones son todas rechazadas o es detectado.
Estoy usando javascript y distintas librerias y frameworks.
En un principio he usado axios y fetch y no funciona. Luego use puppeteer y playwright y lo siguen detectando como bot. Ya he intentado implementar medidas para que no me lo detecten pero sigue pasando lo mismo, se queda pillado en la página de cloudflare que comprueba tu navegador.
Ya he hecho una prueba metiendo proxies y tampoco parece funcionar (igual los que he pillado estaban pochos)
De todas maneras, quien tenga un poco de idea de esto agradeceria una mano 🙏.

Por ejemplo pccomponentes.com tiene este tipo de sistemas: https://www.pccomponentes.com/
 

GreenCash

💲is💲
Noderador
Nodero
Noder
INFO QUE HE ENCONTRADO:

Hay varias técnicas que los propietarios de sitios web pueden utilizar para detectar y bloquear bots, como:

  • Verificación de cookies y cabeceras de usuario para determinar si una solicitud proviene de un navegador web legítimo.
  • Uso de Captchas para verificar que un usuario es humano.
  • Análisis del comportamiento del tráfico para identificar patrones sospechosos.
Para evitar la detección de bots, puedes intentar lo siguiente:

  • Cambiar la frecuencia y el momento de las solicitudes para que no parezcan automatizadas.
  • Utilizar proxies o VPN para enmascarar la dirección IP y la ubicación del dispositivo.
  • Emular el comportamiento humano utilizando herramientas como Puppeteer o Selenium para automatizar acciones como hacer clic en botones y navegar por páginas.
  • Modificar la configuración del navegador, como el agente de usuario y las cabeceras de solicitud, para que parezca que se está accediendo desde un navegador legítimo.