Compartir artículo
Los modelos de lenguaje previamente entrenados, como ChatGPT, pueden comprender el lenguaje natural y generar respuestas similares a las humanas, lo que los convierte en una opción atractiva para las empresas. Empresas como Meta, Canva y Shopify ya están utilizando la tecnología ChatGPT en sus sistemas de chatbots de atención al cliente, según Forbes. 1
Hubo discusiones similares sobre el uso de ChatGPT para el web scraping. Los modelos avanzados de procesamiento de lenguaje natural, como ChatGPT, pueden mejorar en gran medida la eficiencia y la eficacia de los procesos de web scraping.
En este artículo, veremos cómo se utiliza ChatGPT en el web scraping. Veremos diferentes casos de uso donde la combinación de web scraping y ChatGPT puede abrir nuevas posibilidades y agilizar procesos.
- Cómo crear sitios web con ChatGPT
- Scraping de páginas web de Amazon con ChatGPT
- Usando ChatGPT en Web Scraping
- 1. Generación de código para el rastreo de sitios web
- Patrocinador
- 1. 1 Provisión de instrucciones de Python para un colchado web
- 2. Limpie los datos extraídos
- 3. Tratamiento de los datos extraídos
- 3. 1 Realización de un análisis del estado de ánimo
- 3. 2 Categorización del contenido raspado
- Otras lecturas
Cómo crear sitios web con ChatGPT
Scraping de páginas web de Amazon con ChatGPT
Tomemos como ejemplo una página de productos de Amazon para ratones para juegos. La página web de destino contiene detalles del producto, como títulos, imágenes, calificaciones y precios. Usar una consulta como «extraer información de precios de productos de este sitio: [insertar URL]» no buscará datos. En su lugar, se darán instrucciones sobre cómo escribir código para recuperar datos de un sitio de destino (Figura 1).
Figura 1: muestra cómo ChatGPT lo ayuda a escribir códigos para recuperar datos.
Nuestro objetivo es extraer los nombres de los productos que se muestran en la imagen proporcionada (Figura 2). Para hacer esto, necesita estudiar la estructura de la página web. Para inspeccionar elementos, haga clic con el botón derecho en cualquier elemento que nos interese y seleccione «Inspeccionar» en el menú contextual. Esto le permitirá analizar el código HTML y encontrar los datos necesarios para el web scraping.
Figura 2. Definición de los datos correctos en la página web de destino para web scraping
El siguiente paso es definir los datos requeridos y sus atributos. El elemento HTML correspondiente a los datos que queremos extraer se muestra en la siguiente figura (Figura 3). El elemento tiene un atributo de «clase», que usaremos en nuestra biblioteca de web scraping.
Figura 3. Demostración de cómo verificar una página web para los datos y atributos requeridos
Es importante definir los elementos de destino que desea raspar y sus atributos. Esto ayudará a ChatGPT a comprender qué información necesitamos y cómo encontrarla en el sitio de destino.
La pista que usamos para buscar nombres de productos en la página de resultados de búsqueda de Amazon:
Código generado por ChatGPT para recuperar datos:
Usando ChatGPT en Web Scraping
1. Generación de código para el rastreo de sitios web
Los modelos de lenguaje, como ChatGPT, ayudan a los desarrolladores a generar fragmentos de código en el lenguaje de programación seleccionado y una biblioteca para tareas de paso en la web.
Debe recordarse que la estructura y el diseño de los sitios pueden cambiar, lo que puede afectar los elementos y atributos de HTML por el que está guiado. En este caso, el código puede no funcionar correctamente o no para extraer los datos necesarios. Es necesario controlar y actualizar regularmente el código de raspado.
Por ejemplo, para extraer datos sobre la descripción de los productos de la página de un producto de Amazon en particular, puede usar la pista anterior.
Es importante tener en cuenta que la mayoría de los sitios web usan medidas para proteger contra el raspado. Debe asegurarse de que sus métodos de extracción de datos cumplan con los estándares éticos. Consulte las condiciones del servicio del sitio o el archivo Robots. txt antes de iniciar la recopilación de datos.
Patrocinador
Para aumentar la eficiencia de los proyectos de recopilación de datos, puede integrar la tecnología de desbloqueo con el rabor web. Bright Data Web Unlocker permite a las empresas y particulares particulares recopilar datos de fuentes web ética y legalmente, al tiempo que evita que las medidas combatan el raspado.
1. 1 Provisión de instrucciones de Python para un colchado web
ChatGPT ofrece instrucciones paso a paso para extraer datos de fuentes web en varios lenguajes de programación. En este ejemplo, utilizaremos la biblioteca de solicitudes para obtener el contenido de la página web y la hermosa sopa para analizar y extraer los datos necesarios.
- ChatGPT proporciona un comando para instalar las bibliotecas necesarias. Puede ejecutar el siguiente código para instalar bibliotecas en Python.
- El código de chatgpt python generado se puede usar para importar requisitos y hermosas sopa.
- La biblioteca de solicitudes le permite obtener el contenido de la página web de destino. Usando la biblioteca de solicitudes, puede enviar cheques HTTP al servidor de destino y procesar las respuestas. Para obtener el contenido de la página del producto, ingrese el siguiente comando en el terminal reemplazando «https://example. com/product-page» en la URL de la página web de destino:
- Después de recibir el contenido de la página web, es necesario desmontar los datos obtenidos para extraer la información necesaria. Para desmontar los datos obtenidos, use la hermosa sopa:
Si elimina un sitio web de E-Commerce para extraer productos sobre el producto, por ejemplo, el nombre de los productos, es necesario analizar la página del fabricante para encontrar las etiquetas y atributos necesarios correspondientes a estos datos.
- Para guardar o imprimir los datos recibidos, ingrese el código generado por ChatGPT:
2. Limpie los datos extraídos
Después de recopilar los datos, debe limpiar el texto para eliminar elementos irrelevantes y detener palabras como «el», «y», etc. ChatGPT puede brindar orientación y asesoramiento sobre cómo limpiar y formatear los datos recopilados.
Suponga que ha recopilado una gran cantidad de datos y los ha importado a Excel. Sin embargo, se da cuenta de que los datos están desorganizados y desordenados. Por ejemplo, los nombres completos están en la columna B y desea separar el nombre y el apellido en dos columnas diferentes. Puede pedirle a ChatGPT que proporcione una fórmula para separar el nombre y el apellido.
Fórmula generada por ChatGPT para extraer el primer nombre:
La fórmula generada por ChatGPT para extraer el apellido es:
3. Tratamiento de los datos extraídos
3. 1 Realización de un análisis del estado de ánimo
ChatGPT puede realizar análisis de opinión sobre datos escaneados para extraer información interpretable de datos de texto no estructurados. Supongamos que extrajo menciones de su marca de una red social para analizar el crecimiento de su audiencia. Una vez que se reciben y limpian los datos, se puede indicar a ChatGPT que analice los datos textuales y los marque como negativos, neutrales o positivos (Figura 4).
Figura 4. Demostración del proceso de análisis y corrección de un documento de texto de muestra
Aquí hay un ejemplo de cómo se puede indicar a ChatGPT que realice un análisis de sentimiento:
Analice el estado de ánimo del texto: «La duración de la batería también es excelente».
Respuesta de ChatGPT a nuestra solicitud:
Tenga en cuenta que la precisión del análisis de opiniones puede verse afectada por varios factores, como la complejidad del texto y los errores específicos del contexto.
3. 2 Categorización del contenido raspado
ChatGPT le permite distribuir los datos recibidos en categorías predefinidas. Puede definir las categorías en las que se debe clasificar el contenido. A continuación se muestra un ejemplo de categorización de contenido usando ChatGPT:
Por ejemplo, queremos clasificar el siguiente contenido:
A continuación se muestra el resultado de categorizar los datos escaneados usando ChatGPT:
Otras lecturas
- Herramientas de raspado web: evaluación comparativa basada en datos en 2023
- 7 prácticas recomendadas de Web Scraping que debe conocer en el 23
- La guía definitiva sobre técnicas de web scraping en 2023
Para obtener más información sobre el web scraping, puede descargar nuestro informe técnico:
Para obtener orientación sobre cómo elegir la herramienta adecuada, consulte nuestra lista de web scrapers basada en datos y contáctenos:
- Shrivastava, R. (9 de enero de 2023).»ChatGPT es un chatbot para servicio al cliente cerca de ti». Forbes.