[Oportunidad de negocio] Introducción al web scraping


HxckzLxb2

Con el miembro muy activo
Noder
Buenas gente!

Como algunos sabréis, llevo un tiempo haciendo web scraping y bueno, pues me ha apetecido venir a compartirlo con mis colegas de Nodo.
Aquí hay oportunidad de negocio si eres inteligente y lo haces bien. Antes que nada decir que es legal si todos los datos que recopilamos son públicos y accesibles para cualquier persona.

Voy a explicar todo con mis palabras, no voy a hacer copypaste de wikipedia ni de ningún sitio, así que si está mal explicado os jodéis. (Pedid aclaraciones de lo que no entendáis, no hay problema)

1.¿Qué es el web scraping?
El web scraping es una forma de recopilar datos de webs. Se hace mediante el navegador directamente pero mediante el uso de bots.
En otras palabras, "automatizamos" la recogida de datos de una web para obtener cualquier cosa que esté publicada en ella.
Por ejemplo, nosotros programamos un bot, lo ponemos a funcionar sacando precios de Amazon, y recolectamos sus datos. Eso es una forma de web scraping.
Otra forma que he visto que a vosotros Noders os interesa bastante: Vamos a una tienda de zapatillas a la que le dura el stock medio minuto, ponemos un bot ahí a comprobar si hay, y cuando lo hay, lo compra.
Realmente este último ejemplo no sé si entra dentro del web scaping, pero se puede hacer con los mismos frameworks y lenguajes.


2.¿Es legal? ¿Puedo meterme en problemas por hacer esto?
Al menos en España, que es de donde soy es 100% legal siempre y cuando los datos que vayamos a recolectar sean públicos y accesibles para cualquier persona.
Por ejemplo, si entramos en YouTube y sacamos una colección diaria de los 15 vídeos más vistos con todas sus estadísticas públicas, no hay problema, es totalmente legal.
Pero si por ejemplo, conseguimos unas credenciales ilegalmente por ejemplo de Amazon, y sacamos una colección de pedidos de un usuario o distintos usuarios, ya no es legal ya que no son datos públicos y podemos meternos en problemas.


3.¿Qué negocio hay aquí?
El que vosotros veáis. Se pueden vender los datos recolectados o utilizarlos para algún fin. Normalmente una persona que hace web scraping vende los datos, pero por ejemplo, hay webs que te dicen cuándo un producto baja de precio en Amazon. Eso es un ejemplo de alguien que hace web scraping y utiliza los datos, en este caso en su propia web para informar a los usuarios del histórico de precios de un producto.

4.Empezamos con lo bueno. Frameworks y lenguajes.
La mayoría de personas que se dedican a esto suelen hacerlo con Selenium en Python. A mí me dejas de modernismos, yo opto por C# con Selenium y WebDriver.

Realmente podríamos utilizar cualquier lenguaje de programación que se nos ocurra, siendo extremistas hasta ensamblador, ya que en la programación, el límite está en tu imaginación, pero por comodidad y tal se utilizan principalmente estos:

  • C#
  • Python
  • Ruby
  • Java
  • JavaScript (NodeJS)
En cuanto a frameworks, hay unos cuantos, y cada uno funciona de una manera diferente.

  • Selenium
  • WebDriver
  • Puppeteer
  • Playwright
Estos son los más usados. El más completo que yo sepa es Playwright, que es si no me equivoco de Microsoft, pero yo siempre me he decantado por utilizar WebDriver, ya que es el que más me gusta.

5.Limitaciones
Todo tiene sus pros y sus contras y esto no iba a ser menos. Hay una serie de limitaciones que tenemos que tener en cuenta.

Por ejemplo, hay webs a las que no les hace gracia que le saques los datos, aunque sea algo legal.
Normalmente te analizan el navegador para ver si es visible, si está controlado por un bot y varias cosas más. Incluso algunas analizan tu comportamiento en ellas para saber si eres un robot o no.
Afortunadamente, el comportamiento humano se puede simular y se puede enmascarar que el navegador lo controla un bot.

También están los captchas. Muchos de vosotros veréis ahí un gran problema, y otros no.
Hay servicios que por un módico precio, (pocos céntimos por captcha), te resuelven el captcha que quieras. ¿Y cómo hacen esto? Muy fácil, tienen personas reales en la India, China, etc, que se ocupan de ello. Son trabajadores.

A veces cuando recolectamos muchos datos de una web, nos bloquea la IP y no podemos hacer nada más. Pues ahí entran los proxys.

Lo mejor es utilizar proxys residenciales, que aunque son bastante caros, si los datos que recolectamos nos dan un buen beneficio, es mejor que nada.


6.Conclusiones
En este post no vas a aprender a hacer web scraping. Sólo te he proporcionado un breve resumen de lo que es, sus limitaciones y sus formas de hacerlo, para despertaros interés.
Ya quien quiera aprender, que se haga un curso, que aprenda por sí solo o lo que quiera.
O puedes esperar al siguiente post ;)


7.Oportunidad de negocio
Actualmente estoy metido en esto y sé hacer web scraping, considero que bastante bien.
Si a alguien se le ocurre de dónde sacar datos y le apetece, puede contactarme y será un placer hacer negocios.
Si alguien necesita un bot para recolectar datos de algún sitio, puede contactarme y será un placer hacer negocios.
Y si alguien tiene algún negocio ya montado y quiere datos para hacer marketing, conseguir clientes o analizar a la competencia, puede contactarme y será un placer hacer negocios.


8.¿Cuándo vas a enseñarnos a hacer esto?
Todo a su debido tiempo. Si veo interés en este post, abriré otro y os enseñaré a hacer esto.
 

Gerbo

Miembro muy activo será tu puta madre :)
Noderador
Nodero
Noder Pro
Noder
Tienes telegram? Queria preguntarte 4 cosillas...
 
  • Like
Reacciones : HxckzLxb2

Kalubino

Me hago el del flow pero no chivo
Noderador
Nodero
Noder
Muy buen post la verdad, el siguiente tiene pinta de que me va a interesar bastante jajaja.
 
  • Like
Reacciones : HxckzLxb2

cristianboal1

Miembro activo
Buenas gente!

Como algunos sabréis, llevo un tiempo haciendo web scraping y bueno, pues me ha apetecido venir a compartirlo con mis colegas de Nodo.
Aquí hay oportunidad de negocio si eres inteligente y lo haces bien. Antes que nada decir que es legal si todos los datos que recopilamos son públicos y accesibles para cualquier persona.

Voy a explicar todo con mis palabras, no voy a hacer copypaste de wikipedia ni de ningún sitio, así que si está mal explicado os jodéis. (Pedid aclaraciones de lo que no entendáis, no hay problema)

1.¿Qué es el web scraping?
El web scraping es una forma de recopilar datos de webs. Se hace mediante el navegador directamente pero mediante el uso de bots.
En otras palabras, "automatizamos" la recogida de datos de una web para obtener cualquier cosa que esté publicada en ella.
Por ejemplo, nosotros programamos un bot, lo ponemos a funcionar sacando precios de Amazon, y recolectamos sus datos. Eso es una forma de web scraping.
Otra forma que he visto que a vosotros Noders os interesa bastante: Vamos a una tienda de zapatillas a la que le dura el stock medio minuto, ponemos un bot ahí a comprobar si hay, y cuando lo hay, lo compra.
Realmente este último ejemplo no sé si entra dentro del web scaping, pero se puede hacer con los mismos frameworks y lenguajes.


2.¿Es legal? ¿Puedo meterme en problemas por hacer esto?
Al menos en España, que es de donde soy es 100% legal siempre y cuando los datos que vayamos a recolectar sean públicos y accesibles para cualquier persona.
Por ejemplo, si entramos en YouTube y sacamos una colección diaria de los 15 vídeos más vistos con todas sus estadísticas públicas, no hay problema, es totalmente legal.
Pero si por ejemplo, conseguimos unas credenciales ilegalmente por ejemplo de Amazon, y sacamos una colección de pedidos de un usuario o distintos usuarios, ya no es legal ya que no son datos públicos y podemos meternos en problemas.


3.¿Qué negocio hay aquí?
El que vosotros veáis. Se pueden vender los datos recolectados o utilizarlos para algún fin. Normalmente una persona que hace web scraping vende los datos, pero por ejemplo, hay webs que te dicen cuándo un producto baja de precio en Amazon. Eso es un ejemplo de alguien que hace web scraping y utiliza los datos, en este caso en su propia web para informar a los usuarios del histórico de precios de un producto.

4.Empezamos con lo bueno. Frameworks y lenguajes.
La mayoría de personas que se dedican a esto suelen hacerlo con Selenium en Python. A mí me dejas de modernismos, yo opto por C# con Selenium y WebDriver.

Realmente podríamos utilizar cualquier lenguaje de programación que se nos ocurra, siendo extremistas hasta ensamblador, ya que en la programación, el límite está en tu imaginación, pero por comodidad y tal se utilizan principalmente estos:

  • C#
  • Python
  • Ruby
  • Java
  • JavaScript (NodeJS)
En cuanto a frameworks, hay unos cuantos, y cada uno funciona de una manera diferente.

  • Selenium
  • WebDriver
  • Puppeteer
  • Playwright
Estos son los más usados. El más completo que yo sepa es Playwright, que es si no me equivoco de Microsoft, pero yo siempre me he decantado por utilizar WebDriver, ya que es el que más me gusta.

5.Limitaciones
Todo tiene sus pros y sus contras y esto no iba a ser menos. Hay una serie de limitaciones que tenemos que tener en cuenta.

Por ejemplo, hay webs a las que no les hace gracia que le saques los datos, aunque sea algo legal.
Normalmente te analizan el navegador para ver si es visible, si está controlado por un bot y varias cosas más. Incluso algunas analizan tu comportamiento en ellas para saber si eres un robot o no.
Afortunadamente, el comportamiento humano se puede simular y se puede enmascarar que el navegador lo controla un bot.

También están los captchas. Muchos de vosotros veréis ahí un gran problema, y otros no.
Hay servicios que por un módico precio, (pocos céntimos por captcha), te resuelven el captcha que quieras. ¿Y cómo hacen esto? Muy fácil, tienen personas reales en la India, China, etc, que se ocupan de ello. Son trabajadores.

A veces cuando recolectamos muchos datos de una web, nos bloquea la IP y no podemos hacer nada más. Pues ahí entran los proxys.

Lo mejor es utilizar proxys residenciales, que aunque son bastante caros, si los datos que recolectamos nos dan un buen beneficio, es mejor que nada.


6.Conclusiones
En este post no vas a aprender a hacer web scraping. Sólo te he proporcionado un breve resumen de lo que es, sus limitaciones y sus formas de hacerlo, para despertaros interés.
Ya quien quiera aprender, que se haga un curso, que aprenda por sí solo o lo que quiera.
O puedes esperar al siguiente post ;)


7.Oportunidad de negocio
Actualmente estoy metido en esto y sé hacer web scraping, considero que bastante bien.
Si a alguien se le ocurre de dónde sacar datos y le apetece, puede contactarme y será un placer hacer negocios.
Si alguien necesita un bot para recolectar datos de algún sitio, puede contactarme y será un placer hacer negocios.
Y si alguien tiene algún negocio ya montado y quiere datos para hacer marketing, conseguir clientes o analizar a la competencia, puede contactarme y será un placer hacer negocios.


8.¿Cuándo vas a enseñarnos a hacer esto?
Todo a su debido tiempo. Si veo interés en este post, abriré otro y os enseñaré a hacer esto.
Cuando quieras puedes mandar el siguiente post. Yo estoy interesado.
 
  • Like
Reacciones : HxckzLxb2

b1tch

Miembro muy activo
Buenas gente!

Como algunos sabréis, llevo un tiempo haciendo web scraping y bueno, pues me ha apetecido venir a compartirlo con mis colegas de Nodo.
Aquí hay oportunidad de negocio si eres inteligente y lo haces bien. Antes que nada decir que es legal si todos los datos que recopilamos son públicos y accesibles para cualquier persona.

Voy a explicar todo con mis palabras, no voy a hacer copypaste de wikipedia ni de ningún sitio, así que si está mal explicado os jodéis. (Pedid aclaraciones de lo que no entendáis, no hay problema)

1.¿Qué es el web scraping?
El web scraping es una forma de recopilar datos de webs. Se hace mediante el navegador directamente pero mediante el uso de bots.
En otras palabras, "automatizamos" la recogida de datos de una web para obtener cualquier cosa que esté publicada en ella.
Por ejemplo, nosotros programamos un bot, lo ponemos a funcionar sacando precios de Amazon, y recolectamos sus datos. Eso es una forma de web scraping.
Otra forma que he visto que a vosotros Noders os interesa bastante: Vamos a una tienda de zapatillas a la que le dura el stock medio minuto, ponemos un bot ahí a comprobar si hay, y cuando lo hay, lo compra.
Realmente este último ejemplo no sé si entra dentro del web scaping, pero se puede hacer con los mismos frameworks y lenguajes.


2.¿Es legal? ¿Puedo meterme en problemas por hacer esto?
Al menos en España, que es de donde soy es 100% legal siempre y cuando los datos que vayamos a recolectar sean públicos y accesibles para cualquier persona.
Por ejemplo, si entramos en YouTube y sacamos una colección diaria de los 15 vídeos más vistos con todas sus estadísticas públicas, no hay problema, es totalmente legal.
Pero si por ejemplo, conseguimos unas credenciales ilegalmente por ejemplo de Amazon, y sacamos una colección de pedidos de un usuario o distintos usuarios, ya no es legal ya que no son datos públicos y podemos meternos en problemas.


3.¿Qué negocio hay aquí?
El que vosotros veáis. Se pueden vender los datos recolectados o utilizarlos para algún fin. Normalmente una persona que hace web scraping vende los datos, pero por ejemplo, hay webs que te dicen cuándo un producto baja de precio en Amazon. Eso es un ejemplo de alguien que hace web scraping y utiliza los datos, en este caso en su propia web para informar a los usuarios del histórico de precios de un producto.

4.Empezamos con lo bueno. Frameworks y lenguajes.
La mayoría de personas que se dedican a esto suelen hacerlo con Selenium en Python. A mí me dejas de modernismos, yo opto por C# con Selenium y WebDriver.

Realmente podríamos utilizar cualquier lenguaje de programación que se nos ocurra, siendo extremistas hasta ensamblador, ya que en la programación, el límite está en tu imaginación, pero por comodidad y tal se utilizan principalmente estos:

  • C#
  • Python
  • Ruby
  • Java
  • JavaScript (NodeJS)
En cuanto a frameworks, hay unos cuantos, y cada uno funciona de una manera diferente.

  • Selenium
  • WebDriver
  • Puppeteer
  • Playwright
Estos son los más usados. El más completo que yo sepa es Playwright, que es si no me equivoco de Microsoft, pero yo siempre me he decantado por utilizar WebDriver, ya que es el que más me gusta.

5.Limitaciones
Todo tiene sus pros y sus contras y esto no iba a ser menos. Hay una serie de limitaciones que tenemos que tener en cuenta.

Por ejemplo, hay webs a las que no les hace gracia que le saques los datos, aunque sea algo legal.
Normalmente te analizan el navegador para ver si es visible, si está controlado por un bot y varias cosas más. Incluso algunas analizan tu comportamiento en ellas para saber si eres un robot o no.
Afortunadamente, el comportamiento humano se puede simular y se puede enmascarar que el navegador lo controla un bot.

También están los captchas. Muchos de vosotros veréis ahí un gran problema, y otros no.
Hay servicios que por un módico precio, (pocos céntimos por captcha), te resuelven el captcha que quieras. ¿Y cómo hacen esto? Muy fácil, tienen personas reales en la India, China, etc, que se ocupan de ello. Son trabajadores.

A veces cuando recolectamos muchos datos de una web, nos bloquea la IP y no podemos hacer nada más. Pues ahí entran los proxys.

Lo mejor es utilizar proxys residenciales, que aunque son bastante caros, si los datos que recolectamos nos dan un buen beneficio, es mejor que nada.


6.Conclusiones
En este post no vas a aprender a hacer web scraping. Sólo te he proporcionado un breve resumen de lo que es, sus limitaciones y sus formas de hacerlo, para despertaros interés.
Ya quien quiera aprender, que se haga un curso, que aprenda por sí solo o lo que quiera.
O puedes esperar al siguiente post ;)


7.Oportunidad de negocio
Actualmente estoy metido en esto y sé hacer web scraping, considero que bastante bien.
Si a alguien se le ocurre de dónde sacar datos y le apetece, puede contactarme y será un placer hacer negocios.
Si alguien necesita un bot para recolectar datos de algún sitio, puede contactarme y será un placer hacer negocios.
Y si alguien tiene algún negocio ya montado y quiere datos para hacer marketing, conseguir clientes o analizar a la competencia, puede contactarme y será un placer hacer negocios.


8.¿Cuándo vas a enseñarnos a hacer esto?
Todo a su debido tiempo. Si veo interés en este post, abriré otro y os enseñaré a hacer esto.
Me interesa mucho y si es ej Java y con Selenium de 0 mas
 
  • Like
Reacciones : HxckzLxb2