Los sitios están tratando de bloquear el chatgpt web-rawler después de las instrucciones

Las restricciones no se aplican a los modelos Modenai actuales, pero afectarán las versiones futuras.

Benj Edwards – 11 de agosto de 2023 9:22 PM UTC

Una mujer escondida detrás de una nube.

Comentarios de los lectores

Sin un anuncio, Operai recientemente agregó detalles sobre su rastreador web, GPTBOT, a su sitio web de documentación en línea. GPTBOT es el nombre de un agente de usuario que la compañía utiliza para obtener páginas web para enseñar modelos en ChatGPT, como GPT-4. A principios de esta semana, algunos sitios anunciaron rápidamente su intención de bloquear el acceso de GPTBOT a su contenido.

Otras lecturas

En la nueva documentación, OpenAI afirma que las páginas web vistas por GPTBOT pueden usarse para mejorar los modelos futuros «, y que proporcionar acceso GPTBOT a su sitio» puede ayudar a los modelos de IA a ser más precisos y mejorar sus oportunidades y seguridad generales. «

Operai afirma que el sitio implementó filtros que garantizan que el GPTBOT no obtendrá acceso a fuentes ubicadas detrás de las paredes pagas que recopilan información personal o viola la política de OpenAI.

La noticia sobre la posibilidad de bloquear los datos educativos de OpenAI (si los tienen en cuenta) llegaron demasiado tarde para influir en los datos de enseñanza actuales de ChatGPT o GPT-4, que se recopilaron sin anuncio hace varios años. Openai recopiló datos que terminan en septiembre de 2021, que es el borde actual del «conocimiento» para los modelos de idiomas OpenAi.

Vale la pena señalar que las nuevas instrucciones no pueden evitar que los enchufes CHATGPT o CHATGPT a los sitios actuales transmitan información relevante al usuario. Este momento no fue acordado en la documentación, y recurrimos a OpenAi para aclarar.

La respuesta se encuentra en el archivo robots. txt

Según la documentación de OpenAI, el GPTBOT se identificará de acuerdo con el marcador del agente de usuario de GPTBOT, y su línea completa se verá así: «Mozilla/5. 0 AppleWebkit/537. 36 (KHTML, como Gecko; Compatibot/1. 0; +HTTPS: // OpenAi. Com /Gptbot) «.

Otras lecturas

La documentación de OpenAI también proporciona instrucciones para bloquear el acceso de GPTBOT a los sitios que utilizan el archivo Robots. txt estándar: un archivo de texto publicado en el catálogo raíz del Sitio y prescribir a la Steler (como los motores de búsqueda) no indexa el sitio.

Para hacer esto, simplemente agregue dos líneas al archivo robots. txt:

Agente de usuario: GPTBOT desactivar: /

OpenAI también afirma que los administradores pueden limitar el acceso de GPTBOT a ciertas partes del sitio en el archivo robots. txt utilizando varios tokens:

User-agent: GPTBOT Permitir: /Directory-1 /DiMeConal: /Directory-2 /

Además, OpenAi indicó los bloques de direcciones IP desde las cuales funcionará GPTBOT, que también puede ser bloqueado por firewalls.

A pesar de esta posibilidad, el bloqueo de GPTBOT no garantiza que los datos del sitio no puedan capacitar a todos los modelos del futuro. Además de los problemas asociados con ignorar archivos robots. txt, hay otros conjuntos de datos grandes recopilados de sitios (por ejemplo, la pila) que no están relacionadas con OpenAI. Estos conjuntos de datos generalmente se usan para enseñar abierta (o disponible con el código fuente) LLM, como Meta’s Llama 2.

Algunos sitios reaccionan apresuradamente

A pesar de un gran éxito desde un punto de vista técnico, ChatGPT también causó disputas debido al hecho de que recopiló datos protegidos por derechos de autor, sin permiso y concentró este valor en un producto comercial que evita un modelo típico de publicación en Internet. OpenAi también trajeron acusaciones similares (y reclamos judiciales) en plagio.

Otras lecturas

Por lo tanto, no es sorprendente que algunas personas respondieran a las noticias sobre la posibilidad de bloquear su contenido de los futuros modelos GPT con cierta impaciencia. Por ejemplo, el martes, VentureBeat señaló que The Verge, el autor de Sustack Casey Newton y Nil Clark de Clarkesworld, dijo que bloquearían a GPTBOT poco después de las noticias sobre el bot.

Sin embargo, para los operadores de sitios grandes, la elección a favor de bloquear a Kraler con un modelo de lenguaje grande (LLM) no es tan simple como podría parecer. Si hace que un poco de LLM se vea a ciertos datos, dejará la brecha de conocimiento que pueden servir muy bien a algunos sitios (por ejemplo, sitios que no desean perder visitantes si ChatGPT les proporciona información), pero que pueden dañar a otros. Por ejemplo, bloquear el contenido de los futuros modelos de IA puede reducir el rastro cultural de un sitio o marca si en el futuro bots de chat con IA se convierte en la interfaz de usuario principal. Como experimento, imagine que en 2002 la compañía de Internet dijo que no quería que su sitio indexara en Google, lo que sería justificado cuando era la forma más popular de buscar información en Internet.

Es demasiado pronto para hablar sobre inteligencia artificial generativa, y independientemente de cómo se desarrollarán las tecnologías o qué los sitios individuales intentarán negarse a enseñar modelos de inteligencia artificial, al menos OpenAI brindan tal oportunidad.

Chat GPT: red neuronal en español. servicio online en españa