ChatGPT Web Scraping en 2023: consejos y aplicaciones

Compartir artículo

Los modelos de lenguaje previamente entrenados, como ChatGPT, pueden comprender el lenguaje natural y generar respuestas similares a las humanas, lo que los convierte en una opción atractiva para las empresas. Empresas como Meta, Canva y Shopify ya están utilizando la tecnología ChatGPT en sus sistemas de chatbots de atención al cliente, según Forbes. 1

Hubo discusiones similares sobre el uso de ChatGPT para el web scraping. Los modelos avanzados de procesamiento de lenguaje natural, como ChatGPT, pueden mejorar en gran medida la eficiencia y la eficacia de los procesos de web scraping.

En este artículo, veremos cómo se utiliza ChatGPT en el web scraping. Veremos diferentes casos de uso donde la combinación de web scraping y ChatGPT puede abrir nuevas posibilidades y agilizar procesos.

Cómo crear sitios web con ChatGPT

Scraping de páginas web de Amazon con ChatGPT

Tomemos como ejemplo una página de productos de Amazon para ratones para juegos. La página web de destino contiene detalles del producto, como títulos, imágenes, calificaciones y precios. Usar una consulta como «extraer información de precios de productos de este sitio: [insertar URL]» no buscará datos. En su lugar, se darán instrucciones sobre cómo escribir código para recuperar datos de un sitio de destino (Figura 1).

Figura 1: muestra cómo ChatGPT lo ayuda a escribir códigos para recuperar datos.

La figura muestra cómo ChatGPT guía a los usuarios a través del proceso de codificación de extracción de datos.

Nuestro objetivo es extraer los nombres de los productos que se muestran en la imagen proporcionada (Figura 2). Para hacer esto, necesita estudiar la estructura de la página web. Para inspeccionar elementos, haga clic con el botón derecho en cualquier elemento que nos interese y seleccione «Inspeccionar» en el menú contextual. Esto le permitirá analizar el código HTML y encontrar los datos necesarios para el web scraping.

Figura 2. Definición de los datos correctos en la página web de destino para web scraping

Mr2HjnqO9W5B V33XS6JIRGVY3QIG3EV5DEE6RLU8777AVFFAQYXHMMMQ9FSGYUNF20SURL

El siguiente paso es definir los datos requeridos y sus atributos. El elemento HTML correspondiente a los datos que queremos extraer se muestra en la siguiente figura (Figura 3). El elemento tiene un atributo de «clase», que usaremos en nuestra biblioteca de web scraping.

Figura 3. Demostración de cómo verificar una página web para los datos y atributos requeridos

Puede determinar los datos necesarios y sus atributos para el colapso web al estudiar la fuente de la página web de destino.

Es importante definir los elementos de destino que desea raspar y sus atributos. Esto ayudará a ChatGPT a comprender qué información necesitamos y cómo encontrarla en el sitio de destino.

La pista que usamos para buscar nombres de productos en la página de resultados de búsqueda de Amazon:

Código generado por ChatGPT para recuperar datos:

Erlu7p7p7huuk5tpk1iavn01ta7a1q92gxCuyx65 tvPppaz4lnia2fy5uhs3qDobnm8oogyMcp5ernbf rhoxb3f xjyJXQB88QGGJSGE VOXCAOL H 8ial8GTOTGA8EM36WGG

Usando ChatGPT en Web Scraping

1. Generación de código para el rastreo de sitios web

Los modelos de lenguaje, como ChatGPT, ayudan a los desarrolladores a generar fragmentos de código en el lenguaje de programación seleccionado y una biblioteca para tareas de paso en la web.

Debe recordarse que la estructura y el diseño de los sitios pueden cambiar, lo que puede afectar los elementos y atributos de HTML por el que está guiado. En este caso, el código puede no funcionar correctamente o no para extraer los datos necesarios. Es necesario controlar y actualizar regularmente el código de raspado.

Por ejemplo, para extraer datos sobre la descripción de los productos de la página de un producto de Amazon en particular, puede usar la pista anterior.

5yrbmbp2gqis4 ngy ooynfajWbtft1via x 8umg2o3ftt4bdif9xunjckj lwd1pzqj nd0ffucld1udj1zxjdvchlsfzn1eJgwxrdtms3vuonuonuonuonuonuonuinu 4spdkjx5kJaBJaBBBJABBJA

Es importante tener en cuenta que la mayoría de los sitios web usan medidas para proteger contra el raspado. Debe asegurarse de que sus métodos de extracción de datos cumplan con los estándares éticos. Consulte las condiciones del servicio del sitio o el archivo Robots. txt antes de iniciar la recopilación de datos.

Patrocinador

Para aumentar la eficiencia de los proyectos de recopilación de datos, puede integrar la tecnología de desbloqueo con el rabor web. Bright Data Web Unlocker permite a las empresas y particulares particulares recopilar datos de fuentes web ética y legalmente, al tiempo que evita que las medidas combatan el raspado.

Datos brillantes de bloques web

1. 1 Provisión de instrucciones de Python para un colchado web

ChatGPT ofrece instrucciones paso a paso para extraer datos de fuentes web en varios lenguajes de programación. En este ejemplo, utilizaremos la biblioteca de solicitudes para obtener el contenido de la página web y la hermosa sopa para analizar y extraer los datos necesarios.

  1. ChatGPT proporciona un comando para instalar las bibliotecas necesarias. Puede ejecutar el siguiente código para instalar bibliotecas en Python.

CLHU2 CUXSO57 WKZN7 TFYSDALJ5E 4XT5CMMXIVG8H D OUKIANOM6FMMNJPEV12 CFVL

  1. El código de chatgpt python generado se puede usar para importar requisitos y hermosas sopa.

O8xt1qpz3upznm4vos8vht3qa zphjvm54v2htfcnvhbzamlhnnnenclek1pcx1 j qbbpv7Opvnjf6uiJoJoJoJXK60SuthBTIMefB1 go t27WZMMMGNLQ5 RUS 3M0FCYZE7bbs

  1. La biblioteca de solicitudes le permite obtener el contenido de la página web de destino. Usando la biblioteca de solicitudes, puede enviar cheques HTTP al servidor de destino y procesar las respuestas. Para obtener el contenido de la página del producto, ingrese el siguiente comando en el terminal reemplazando «https://example. com/product-page» en la URL de la página web de destino:

Gofzzg0j8oyit e4effkfkfrayt aovyyglh6czip3sma4inxrfzbgqccub ygicogl cbc chphiyh28upnqbcrro5fmhfgpo jzqpdaacwfk 7hy64dcf4cey5sqlo gwn6e uqsqsqsqsqsqsqydww

  1. Después de recibir el contenido de la página web, es necesario desmontar los datos obtenidos para extraer la información necesaria. Para desmontar los datos obtenidos, use la hermosa sopa:

Brpkpy7q1jtadsxtgidmdokdnfj9f 3bqdmimbkd7osnewivf58xfl2sd 5ncqapVocfzxohvikjpx owcmyrciwyfsmzam o8blrfu5pq bfvSabWhv5Occccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccccc.

Si elimina un sitio web de E-Commerce para extraer productos sobre el producto, por ejemplo, el nombre de los productos, es necesario analizar la página del fabricante para encontrar las etiquetas y atributos necesarios correspondientes a estos datos.

Qysfae2tx SM0ZSSXGCCC5WQPZ BFKWMEG1XHWTVTVZHESKGI2BECIQBZ5TRJL QVDSFZ2SFZ2SFZ2VDYQ0TUPXEUU HI2V56DANSTAN

  1. Para guardar o imprimir los datos recibidos, ingrese el código generado por ChatGPT:

2. Limpie los datos extraídos

Después de recopilar los datos, debe limpiar el texto para eliminar elementos irrelevantes y detener palabras como «el», «y», etc. ChatGPT puede brindar orientación y asesoramiento sobre cómo limpiar y formatear los datos recopilados.

Suponga que ha recopilado una gran cantidad de datos y los ha importado a Excel. Sin embargo, se da cuenta de que los datos están desorganizados y desordenados. Por ejemplo, los nombres completos están en la columna B y desea separar el nombre y el apellido en dos columnas diferentes. Puede pedirle a ChatGPT que proporcione una fórmula para separar el nombre y el apellido.

Fórmula generada por ChatGPT para extraer el primer nombre:

Agkvdfsecfvhyo Ufogritjfbiwwwwm7cnmf yhiiqzzzupjkwyupjkwyii1xfvbisoqxrgl4zxy9qppppjqtswciwedbcwedbcwedbcwe9tabitvxq6qei76hxtik gs

La fórmula generada por ChatGPT para extraer el apellido es:

QCMPHAUPSSECRDCPNOIV3OZVQ3IKVGESXHD8GHRR6VNKNQMCEEVGZ 81BRZ YWFYFWGQBAVIQGN2PZROQYZLQTE4RGVINZEAHP7JPFVQV VAAQMU0 ECUV5OYPOFZGXERATVTYM4Q

3. Tratamiento de los datos extraídos

3. 1 Realización de un análisis del estado de ánimo

ChatGPT puede realizar análisis de opinión sobre datos escaneados para extraer información interpretable de datos de texto no estructurados. Supongamos que extrajo menciones de su marca de una red social para analizar el crecimiento de su audiencia. Una vez que se reciben y limpian los datos, se puede indicar a ChatGPT que analice los datos textuales y los marque como negativos, neutrales o positivos (Figura 4).

Figura 4. Demostración del proceso de análisis y corrección de un documento de texto de muestra

A5uirzqaalq22m8xwplqnymxzyrjuhvBerEpklcclcccccclccmxdkynu32se rls n8izhhwnqiowiWn4s5js1kbh ucdlx49Frobxvcdgkho

Aquí hay un ejemplo de cómo se puede indicar a ChatGPT que realice un análisis de sentimiento:

Analice el estado de ánimo del texto: «La duración de la batería también es excelente».

Respuesta de ChatGPT a nuestra solicitud:

Kh0xs3zh9EgrhsJeggi mrcfk0y3 vqtt5sfnmdccrwv1Juktfafafeo1shlw 6czagl majkJeHhtzpfix6Yzfqi qJ6WDKYSVARAZEAP9EPB7LMLMLC103MT VPQWUL

Tenga en cuenta que la precisión del análisis de opiniones puede verse afectada por varios factores, como la complejidad del texto y los errores específicos del contexto.

3. 2 Categorización del contenido raspado

ChatGPT le permite distribuir los datos recibidos en categorías predefinidas. Puede definir las categorías en las que se debe clasificar el contenido. A continuación se muestra un ejemplo de categorización de contenido usando ChatGPT:

Por ejemplo, queremos clasificar el siguiente contenido:

J68VII1NLDXQM0SW 5WBI32OTT EZZ4C 2CY7DUJWRVPJQ63ZOZGAFREBRS5WFWQTE0BY5NGPHPDJCARNB2 JPL6Y4QY8339ONWVZKWZLXMZHMSRPREPRIPRITVEDS DJ8ICTKJYX3 9NBXW

A continuación se muestra el resultado de categorizar los datos escaneados usando ChatGPT:

Bgnyb4jsbbc3eqzj xf68ycfjjyebwzjdazbjndn7forsisidsidsqxdg6rtma6a3v3o0temfxhw4pvu3a72clmidg7l9

Otras lecturas

  • Herramientas de raspado web: evaluación comparativa basada en datos en 2023
  • 7 prácticas recomendadas de Web Scraping que debe conocer en el 23
  • La guía definitiva sobre técnicas de web scraping en 2023

Para obtener más información sobre el web scraping, puede descargar nuestro informe técnico:

Para obtener orientación sobre cómo elegir la herramienta adecuada, consulte nuestra lista de web scrapers basada en datos y contáctenos:

  1. Shrivastava, R. (9 de enero de 2023).»ChatGPT es un chatbot para servicio al cliente cerca de ti». Forbes.
Chat GPT: red neuronal en español. servicio online en españa