Los modelos de idiomas grandes, como ChatGPT, usan una serie compleja de ecuaciones para comprender y responder a sus solicitudes. Aquí hay una mirada desde el interior del sistema.
ChatGPT se crea para crear líneas de texto que tengan sentido en varias oraciones y párrafos. Justin Hood / NBC News / Getty Images
17 de mayo de 2023, 12:00 UTC
Joell Pocket y Jasmine Tsui
Ya has oído hablar de ChatGPT y sus posibilidades para generar textos. Ella aprobó con éxito el examen en una escuela de negocios, estaba paralizado de los maestros que intentaban identificar trampas y ayudó a las personas a hacer correos electrónicos para sus colegas y familiares.
El hecho de que enfrentó estas tareas es muy notable, porque los exámenes, ensayos y letras requieren las respuestas correctas. Pero la corrección de las respuestas no es lo principal para ChatGPT, es más bien un producto de su tarea: crear un sonido natural del texto.
¿Cómo funcionan los bots de chat con inteligencia artificial y por qué dan algunas respuestas correctamente, y algunos están muy, muy equivocados? Aquí hay una mirada desde el interior.
La tecnología subyacente a modelos de lenguaje tan grandes como ChatGPT es similar a la función de predecir el texto que ve cuando realiza un mensaje en su teléfono. El teléfono evalúa el texto escrito y espera la probabilidad de que siga, según su modelo y en observaciones de su comportamiento en el pasado.
Cualquiera que esté familiarizado con este proceso sabe cuántas direcciones diferentes puede tener una línea de texto.
A diferencia de la función del texto predictivo en el teléfono, el chatGPT es generativo (g en GPT). No hace predicciones desechables, pero crea líneas de texto que tienen sentido en varias oraciones y párrafos. La conclusión debe ser significativa y leer como si una persona lo escribiera y coincidir con la pista.
¿Qué le ayuda a elegir la siguiente palabra correcta, y luego una más, y así sucesivamente?
Referencia interna
Dentro de la máquina no hay una base de datos de hechos o diccionario que la ayuden a «comprender» las palabras. En cambio, el sistema considera las palabras matemáticamente como un conjunto de significados. Podemos suponer que estos valores son una cierta cualidad que la palabra puede poseer. Por ejemplo, ¿la palabra es complementaria o crítica?¿Dulce o agria? Bajo o alto?
Teóricamente, puede establecer estos valores en cualquier lugar conveniente y descubrir que se acerca a la palabra. Aquí hay un ejemplo ficticio que demuestra esta idea: el generador a continuación está diseñado para devolver diferentes frutas según tres cualidades. Intente cambiar cualquiera de las cualidades y vea cómo cambia el resultado.
Esta técnica se llama incrustación de palabras y no es nueva. Se originó en el campo de la lingüística en la década de 1950. Aunque solo se usan tres «cualidades» en el ejemplo anterior, en un modelo de lenguaje grande, la cantidad de «cualidades» para cada palabra puede ser de cientos, lo que hace posible identificar las palabras con mucha precisión.
Significado de la enseñanza
Cuando se crea el modelo por primera vez, las cualidades asociadas con cada palabra se aleatorizan, lo que no es muy útil porque la capacidad de predicción del modelo depende de cuán finamente ajustadas estén. Para lograr esto, el modelo debe ser entrenado en una gran cantidad de contenido. Esta es una gran parte del gran modelo de lenguaje.
Un sistema como ChatGPT puede alimentar millones de páginas web y documentos digitales.(Piense en toda Wikipedia, los grandes sitios de noticias, blogs y libros digitalizados). La máquina revisa los datos de entrenamiento segmento por segmento, bloqueando la palabra en secuencia y calculando una «conjetura» sobre qué valores coinciden más con lo que debería estar en el espacio en blanco. Cuando aparece una respuesta correcta, la máquina puede usar la diferencia entre lo que adivinó y la palabra real para mejorar el rendimiento.
Este es un proceso largo. La empresa OpenAI, que creó ChatGPT, no dio a conocer detalles sobre la cantidad de datos de entrenamiento que se usaron en ChatGPT y cuál fue el poder de las computadoras que se usaron para entrenarlo. Los investigadores de Nvidia, la Universidad de Stanford y Microsoft estiman que, con 1024 GPU, GPT 3, el predecesor de ChatGPT, tardaría 34 días en entrenarse. Un analista estima que el costo de los recursos informáticos para entrenar y ejecutar grandes modelos de lenguaje podría ser de millones.
ChatGPT también tiene una capa adicional de aprendizaje llamada aprendizaje de refuerzo basado en comentarios humanos. Si el entrenamiento anterior tenía como objetivo lograr que el modelo completara el texto faltante, entonces en esta etapa debería producir líneas coherentes, precisas y conversacionales.
En esta etapa, las personas evalúan las respuestas del automóvil, señalando mensajes incorrectos, inútiles o incluso francamente sin sentido. Según las revisiones recibidas, la máquina aprende a predecir si sus respuestas serán útiles para las personas. Operai argumenta que gracias a esta capacitación, la salida del modelo se vuelve más segura, relevante y menos propensa a «alucinaciones». Según los investigadores, es gracias a esto que las respuestas de ChatGPT son mejor consistentes con las expectativas humanas.
Al final del proceso, no hay registros de los datos de capacitación de origen en el modelo. No hay hechos ni citas a los que se pueda mencionar, solo cómo las palabras en acción están conectadas o no relacionadas.
Usar resultados de aprendizaje
Este conjunto de datos es sorprendentemente poderoso. Cuando ingresa su solicitud a ChatGPT, él transfiere todo a los números, utilizando lo que ha aprendido en el proceso de aprendizaje. Luego realiza la misma serie de cálculos que más altos para predecir la siguiente palabra en su respuesta. Esta vez no hay necesidad de revelar una palabra oculta, simplemente se predice.
Gracias a la posibilidad de referirse a fragmentos anteriores de la conversación, el sistema puede darle a una página por la página un texto realista y que suena humanamente, que a veces, pero no siempre, es correcto.
Restricciones
Por el momento, hay muchos desacuerdos sobre de qué es capaz o será capaz la inteligencia artificial, pero uno puede estar de acuerdo con uno, y esto se nota en las interfaces de ChatGpt, Google Bard y Microsoft Bing: estas herramientas no deberían confiar en Cuando se requiere precisión.
Los modelos de idiomas grandes pueden identificar patrones de texto, no hechos. Y varios modelos, incluido el chatGPT, tienen restricciones al conocimiento, es decir, no pueden conectarse a Internet para obtener nueva información. A diferencia de Bing Bing, Microsoft, que puede solicitar recursos de Internet.
El modelo de lenguaje grande también es bueno como el material utilizado para su entrenamiento es bueno. Dado que los modelos revelan los patrones entre palabras, si la IA se alimenta de un texto peligroso o racista, aprenderá leyes peligrosas o racistas.
Operai afirma que creó algunos mecanismos de protección para evitar la presentación de tales textos, y ChatGPT afirma que «entrenó para rechazar las solicitudes inapropiadas», como descubrimos cuando se negó a escribir una carta enojada que exigía un aumento de los salarios. Pero la compañía también admite que ChatGPT a veces «responde a instrucciones dañinas o demuestra un comportamiento sesgado».
Actualmente, hay muchas oportunidades útiles para usar esta tecnología, por ejemplo, al compilar cartas que acompañan, resumiendo los resultados de las reuniones o la planificación de alimentos. La gran pregunta es si la tecnología puede superar algunas de sus deficiencias y crear un texto realmente confiable.
Metodología
Pocket Graphics Joella. En el cronograma de «Orgullo y prejuicio», Google Bard, Operai GPT-1 y ChatGPT recibieron la tarea: «Por favor, describa brevemente el» Orgullo y el prejuicio «de Jane Austin en una oración». Se propuso Bigscience Bloom para poner fin a la propuesta «en la novela» Orgullo y prejuicio «Jane Austin». Todas las respuestas se recopilan el 11 de mayo de 2023. En el horario de correo electrónico, OpenAi Chatgpt, se les dio consejos: «Escriba una carta positiva pidiendo aumentar el salario», «Escriba una carta neutral pidiendo salarios de elevación», «Escriba una carta emocionada con una solicitud para aumentar el salario» , «Escribe una carta enojada con una solicitud sobre el aumento del salario». Todas las respuestas se recopilan el 8 de mayo de 2023
Bolsillo de Joella
Joella Carman (Joella Carman) es una gráficos de datos de diseñadores visuales interactivos.
Jasmine Tsui – NBC News Reporter.