Cómo funciona el chatgpt: explicar las redes neuronales simplemente

Qué cosas nuevas han aprendido las cosas de la red neuronal como Chat GPT y por qué están a punto de dejarlo personalmente desempleado. Al mismo tiempo, pocas personas entienden cómo están organizadas y qué tienen dentro.

Hoy les voy a decir todo para que incluso un estudiante de humanidades de seis años pueda entender.¡Vamos!

T9: El modelo de idioma en su teléfono

T9 - El modelo de idioma en su teléfono

Empecemos simple. Prepárese para escuchar la fea verdad. ChatGPT es en realidad el T9 de su teléfono, pero en esteroides bovinos. Sí, es cierto, los científicos llaman a ambos modelos de lenguaje de tecnologías, es decir, modelos de lenguaje. Y todo lo que hacen es esencialmente adivinar la siguiente palabra que debería seguir el texto que ya tiene.

T9 desde tu teléfono.

Bueno, para ser más precisos, sobre teléfonos bastante viejos de finales de los 90, como el inquietable Nokia 3310 icónico, T9 solo ayudó a escribir la palabra actual, no la siguiente. Pero a principios de la década de 2010, la tecnología de los teléfonos inteligentes había evolucionado para permitir la puntuación, la contextualización y lo suficiente como para adivinar la palabra que podría seguir a continuación.

Esta es exactamente la analogía con una versión tan avanzada de la reemplazo automático de la que estamos hablando. Entonces, tanto el T9 en el teclado del teléfono inteligente como el chat GPT están entrenados para resolver una tarea increíblemente simple, para predecir una siguiente palabra que sigue el texto existente. Esto es, de hecho, modelado de idiomas.

Para poder hacer tales predicciones, los modelos deben operar con las probabilidades de las próximas palabras. Bueno, después de todo, probablemente estaría decepcionado si su teléfono inteligente le arrojara palabras completamente aleatorias en autocompletar para continuar lo que está escribiendo.

Los modelos deben operar con las probabilidades de las siguientes palabras.

Bueno, imaginemos por ilustración que recibes un mensaje de tu amigo diciendo: «Oye, ¿vas a salir esta noche?»Y comienzas a responder «No, lo siento, estoy en camino a …». Y si en ese momento su teléfono inteligente le pide que termine la oración con la palabra «Estoy en camino a CapyBaroo», digamos, entonces para tal bilibbery, francamente hablando, no necesita ningún modelos de idiomas difíciles. Podrías sustituir una palabra aleatoria del diccionario.

Pero espera que su teléfono inteligente le diga algo más sensato. Y de hecho, si intentas escribir la frase «Demonios, no, ya tengo cosas que hacer, voy a …» En este momento y vea lo que tu teléfono inteligente te dice, probablemente verás algunas continuaciones bastante adecuadas.. Bueno, por ejemplo, «Voy al banco», «de vacaciones» o «Voy a la farmacia».

Entonces, ¿cómo entiende exactamente T9 qué palabras es probable que sigan el texto escrito, y cuáles definitivamente no deberían sugerirse? Para responder a esta pregunta, tendremos que sumergirnos en los principios básicos de las redes neuronales más simples.

¿De dónde obtienen las redes neuronales las probabilidades de las palabras?

¿Y cómo predecimos la dependencia de algunas cosas en otras? Bueno, supongamos que queremos enseñar un cierto modelo matemático para predecir la dependencia del peso de una persona en su altura.

¿Cómo abordamos esta tarea?

Bueno, el sentido común sugiere que primero debemos recopilar algún tipo de conjunto de datos en el que buscaremos patrones. Vamos a, por simplicidad, limitarnos a un género y considerar solo a los hombres. Tomemos estadísticas para varios miles de hombres por altura de peso e intentemos entrenar el Matmodel para encontrar la dependencia. Para mayor claridad, primero dibujemos nuestro conjunto de datos completo en un gráfico.

Tomemos algunas miles de estadísticas de altura de altura de los hombres.

En el eje X pondremos la altura de una persona, y en el eje Y su peso. Puedes ver una cierta dependencia a simple vista. Los hombres altos pesan más, gracias a Kep. Y esta dependencia es bastante fácil de cortar mediante una ecuación lineal simple, que todos conocemos desde el quinto grado de la escuela y igual a KX Plus b. Y tal cosa como la agresión lineal nos permite elegir la ecuación que mejor describe de manera óptima esta dependencia.

Ya está hecho en la imagen. Puede intentar poner su altura en esta ecuación ahora mismo y ver si predice su peso. El mío no lo predice muy bien, porque la muestra se basa en hombres bastante bien alimentados.

Tal vez estamos hablando de estadounidenses, no lo sé. Probablemente ya quieras exclamar. Bien, lo de altura de peso era lo suficientemente intuitiva.

Pero, ¿qué tiene esto que ver con los modelos de lenguaje textual?

¿Qué tiene esto que ver con los modelos de lenguaje textual?

Tiene que ver con el hecho de que las redes neuronales son un conjunto de aproximadamente las mismas ecuaciones exactas, solo mucho más complejas y utilizando matrices. No hablaremos de eso en detalle ahora.

Podemos decir simplistamente que T9 o CHAT-GPT es solo un conjunto de una gran cantidad de ecuaciones, donde los coeficientes en X se eligen de una manera difícil. Los IXE en este caso son palabras que se alimentan a la entrada del modelo, e y es la siguiente palabra que el modelo está tratando de predecir.

La tarea principal al entrenar un modelo de chatbot

La tarea principal en la capacitación del modelo es encontrar los coeficientes correctos para las X que nos permitirán predecir bien la dependencia y expresarla bien. Es de la misma manera que seleccionamos los coeficientes para nuestra ecuación para el aumento de peso.

Y por modelos grandes, los científicos significan los que hay muchos parámetros, es decir, muchas ecuaciones. Se llaman LLM – Modelos de idiomas grandes. Y como veremos más, cuanto más gordo sea el modelo, más parámetros tiene, más refrigerador genera textos. Por cierto, si en este punto se pregunta por qué siempre estamos hablando de predecir una siguiente palabra, mientras que el chat GPT escupe alegremente los tramos enteros de texto, entonces no se tristes, todo es simple aquí.

Sí, de hecho, la red neuronal puede generar un texto completo, pero lo hace por palabra. Es decir, escupe la siguiente palabra cada vez, luego alimenta todo el texto a sí mismo como una entrada, teniendo en cuenta la palabra anterior y genera la siguiente. Y así obtienes un texto bastante conectado.

De hecho, en nuestras ecuaciones, como modelos de lenguaje, intentan predecir no tanto la siguiente palabra específica, por qué los modelos de lenguaje son expertos en la creatividad, sino las probabilidades de diferentes palabras que podrían seguir el texto actual.

¿Por qué es esto necesario?¿Por qué no podemos usar siempre la palabra más correcta? Veamos un ejemplo concreto.

Jugaremos un pequeño juego, fingirás ser una red neuronal de idiomas y te daré tareas.

Entonces, continúe con la sentencia: el 44º presidente de los Estados Unidos y el primer afroamericano en ese papel es Barack. Ahora es tu turno. Trate de adivinar cuál será la próxima palabra y qué tan probable es que esté allí.

Si ahora ha dicho que la siguiente palabra debería ser Obama con una probabilidad de 100%, entonces felicidades, está equivocado. No es solo que haya algún otro mítico, Presidente de Obama, Barack. No, es solo que tiene un segundo nombre, el llamado Hussein, y en documentos oficiales a menudo se escribe Barack, Hussein, Obama.

En consecuencia, un modelo de red neuronal sintonizado correctamente diría que Obama sigue a Barack, bueno, el 90 por ciento del tiempo, y dejará el 10 por ciento por el hecho de que primero habrá Hussein, y luego terminará casi exactamente con Obama. Y aquí llegamos a un aspecto interesante de estos modelos de redes neuronales.

Resulta que no son extraños de la creatividad. Bueno, es, de hecho, cuando se genera la siguiente palabra, el modelo cada vez como si lanza un dado para elegirlo, pero no solo como de costumbre, sino que las probabilidades de caerse de diferentes palabras corresponden aproximadamente a las propensidades mismasque el modelo ha estimado con la ayuda de sus propias ecuaciones.

Y resulta que el mismo modelo puede dar diferentes respuestas a exactamente las mismas consultas, es decir, puede encontrar diferentes opciones como un humano. En este caso, científicos, previamente han intentado hacer el modelo todo el tiempo para elegir una palabra más probable, pero por alguna razón, a los resultados no fueron tan buenos.

Los modelos a menudo se confundían, comenzaron a ir en ciclos, pero si hacen una función especial que les permite a veces variabilidad mostrar, elegir diferentes palabras, entonces en este caso resulta muy bien, las respuestas son ricas, interesantes, interesantes, interesantes, interesantes, interesantes. Y en general, el modelo ya parece una persona.

Entonces, un breve resumen: hasta ahora hemos descubierto que los modelos de idiomas se han utilizado en funciones de reemplazo automático T9 desde principios de 2010 en teléfonos inteligentes, y son un conjunto de ecuaciones que están entrenadas para predecir la siguiente palabra que sigue a una existencia existentetexto.

Pasemos de todo tipo de T9s dormidos a modelos más modernos.

GPT CHAT 2018: GPT-1 y la arquitectura del transformador

El chat GPT GPT muy ballyhooed 2018: GPT-1 y la arquitectura del transformador es el representante más moderno de la familia de modelos GPT.

GPT aquí es un transformador generativo previamente capacitado o transformador entrenado para generar texto. Y el transformador en este caso no es una referencia a una película de Michael Bay o dibujos animados de Anime de Old, sino una arquitectura de redes neuronales que los investigadores de Google se les ocurrió en 2017. Y cuando digo «en el día», estoyno bromeo.

Según los estándares de la industria, seis años desde entonces es simplemente una eternidad. Fue la invención del transformador el que fue un evento tan histórico para toda la industria de la IA.

En general, todas las áreas de AI, desde procesamiento de texto, procesamiento de imágenes, procesamiento de sonido, traducción de videos, etc., todas comenzaron a usar activamente esta misma tecnología. Y en general, podemos decir que el estancamiento, el llamado «invierno de inteligencia artificial», que reinó antes del lanzamiento de esta nueva tecnología, se superó con la ayuda del transformador. Y en general, todo el floración que estamos viendo es gracias a los transformadores en primer lugar.

Conceptualmente, un transformador es un mecanismo de computación tan universal, que es muy simple de describir. Se necesita como entrada un conjunto de secuencias de datos y emite otro conjunto de secuencias, pero ya se transforma según algún algoritmo.

Y dado que el texto, las imágenes, el sonido y, en general, casi todo en este mundo puede representarse como secuencias de números, resulta que el transformador puede casi cualquier tarea para ayudar a resolver. Pero el principal truco del transformador es su conveniencia y escalabilidad, ya que consiste en módulos muy simples de bloques, que se pueden combinar fácilmente entre sí y escalar fácilmente.

Y así, los viejos modelos de red neuronal previa al transformador, comenzaron a toser y tostar cuando trató de hacer que fueran demasiado rápido o demasiadas palabras para tragar a la vez. Y aquí están las nuevas redes neuronales de transformadores, no tienen problemas para procesar grandes cantidades de datos, lo manejan mucho mejor.

El enfoque anterior era procesar el texto uno por uno, es decir, secuencialmente. Y este es un modelo simple, cuando se tragó un texto grande, comenzó a olvidar a mediados del tercer párrafo, y lo que había al principio, al igual que las personas en la mañana antes de tomar una taza de café. Pero las poderosas patas de un transformador le permiten mirar todo a la vez, y esto conduce a resultados mucho más impresionantes.

Y eso es lo que ha permitido el avance en la generación de texto. Y para un ejemplo, veamos un texto simple.

Sasha estaba caminando por la carretera y chupando. Y si coloca este texto, por ejemplo, en T9, en el autocompleto en su teléfono, entonces es muy probable que el modelo allí sea bastante simple, y le sugerirá que Sasha estaba chupando algo que le daría un rubor gris de Sasha. Pero si coloca el mismo texto en una sala de chat G5, la sala de chat del G5 dirá, por lo que es un dicho. Sasha chupó seca y está bien.

Es por eso que las nuevas redes neuronales transformadoras modernas, mantienen el contexto mucho mejor, no olviden en absoluto lo que había al comienzo de la oración y, en general, genera textos mucho más fríos. Breve resumen. GP T-1 salió en 2018 y demostró que puede usar una arquitectura de transformador para la generación de texto de la red neuronal con mucha más escalabilidad y eficiencia.

Y creó un gran directo para el futuro sobre la capacidad de aumentar el alcance y la complejidad de los modelos de idiomas.

2019: GPT-2 o 7000 Shakespeares en una red neuronal

Si desea enseñar una red neuronal para el reconocimiento de imágenes, 2019: GPT-2 en una red neuronal para distinguir las pequeñas y lindas chequlabels de los muffins de arándanos, entonces no puede simplemente lanzar un archivo de 100-500 mil fotos y decirloBueno, calcule por usted mismo, aquí hay un ejemplo de Cheklabels, aquí hay un ejemplo de magdalenas. Todo tendrá sentido.

Si desea capacitar a una red neuronal para reconocer imágenes.

No. Todavía necesita marcar esta gran matriz, es decir, debajo de cada foto para firmar cuál de ellas es esponjosa y cuál es dulce, de lo contrario no recibirá ningún entrenamiento.

¿Sabes qué es lo bueno de la capacitación de modelos de idiomas grandes? Es que puede entrenarlos en absolutamente cualquier conjunto de datos textuales que haya hecho un humano, y no tiene que marcarlos de ninguna manera de antemano.

Es como si pudieras lanzar una maleta de libros de texto a un colegial y no decirle qué leer en qué orden, pero lo estudiaría y descubriría algo por sí mismo, llegaría a conclusiones inteligentes. Y si lo piensas, tiene sentido. Queremos enseñar a un modelo de red neuronal a predecir la siguiente palabra basada en palabras anteriores.

Entonces, cualquier texto escrito por un ser humano es un gran conjunto de tales secuencias, cuando tomas algunas palabras y luego solo miras qué palabra estaba a su lado. Y ahora recordemos que la tecnología de Transformers, que se probó en GPT-1, resultó ser extremadamente efectiva para procesar enormes conjuntos de datos y trabajar con modelos grandes, es decir, aquellos que consisten en muchos parámetros.

¿Estás pensando lo que estoy pensando? Bueno, los científicos de Openai han decidido lo mismo. Es hora de ver grandes modelos. En general, se decidió bombear radicalmente GPT-2 en dos parámetros clave. Conjunto de datos de entrenamiento, conjunto de datos y el volumen del modelo en sí, es decir, el número de parámetros que tiene.

Y en ese momento no había conjuntos de datos oficiales de capacitación especial para investigadores de inteligencia artificial. Todos tuvieron que torcerlo como podían.

Entonces, los chicos de Operai, decidieron hacer algo bastante inteligente. Fueron a Reddit, que es el foro de habla inglesa más grande, y acaba de descargar todos los hipervínculos de todas las publicaciones que tenían 3 me gusta o más.

Quiero decir, ese es el enfoque científico literalmente, ¿verdad? Y simplemente descargaron una gran cantidad de texto de todos esos hipervínculos.

Hay 8 millones de enlaces y alrededor de 40 gigabytes de texto.¿Eso es mucho o un poco?

Te llevaría casi 40 años alcanzar a GPT-2 en erudición.

Bueno, pongámoslo en perspectiva. William Shakespeare, ese es el tipo de poeta famoso y escritor en inglés, escribió solo 850, 000 palabras en su carrera sobre David. En un libro promedio de una página, alrededor de 300 palabras en inglés caben en una página. Así que estamos hablando de unas 2800 páginas de hermoso texto en inglés ligeramente desactualizado. Ahora, todo eso ocuparía alrededor de 5, 5 megabytes de memoria de computadora. Y eso es 7300 veces menos de lo que se inyecta en GPT-2.

Dado que, en promedio, las personas leen alrededor de una página por minuto, incluso si absorbe el texto las 24 horas del día, sin descanso para comer, dormir, etc., le llevará casi 40 años ponerse al día con GPT-2 enla erudición no es agria, de acuerdo. Pero la cantidad de datos de entrenamiento por sí sola no es suficiente para producir un modelo de lenguaje genial. También tiene que ser lo suficientemente complejo para entenderlo.

Imagínese, incluso si pone a un niño de cinco años a leer todas las obras de Shakespeare y todas las conferencias de Feynman sobre física cuántica, es poco probable que se vuelva muy inteligente, simplemente no tendrá el cerebro suficiente para comprenderlo todo. Entonces, aquí también, el modelo debe ser lo suficientemente complejo como para digerirlo todo.¿Y en qué se mide la complejidad del modelo? Hablemos de eso.

Cómo se miden la complejidad y el tamaño de los modelos

Recuerde, usted y yo hablamos un poco antes que dentro de los modelos de lenguaje en la aproximación súper simplificada se encuentra un conjunto de ecuaciones y es igual a kx más b, donde ics son palabras dadas como entrada e y es, respectivamente, la siguiente palabra que estamostratando de encontrar y predecir su probabilidad.

Entonces, ¿cuántos de estos parámetros ics crees que había en las ecuaciones que describían el modelo GPT-2 que salió en 2019?¿Tal vez hay un par de miles o un par de billones?

Llévalo más alto. Había mil millones y medio de tales parámetros en la ecuación.

Eso es un gran número directo. Si solo escribe esa cantidad de números en un archivo, guárdelo en el disco, es tanto como 6 gigabytes. Puede ver que esto es más pequeño que la cantidad de datos en los que entrenamos la red neuronal.

Recuerde, descargamos hasta 40 gigabytes de Reddit. Pero por otro lado, tiene sentido. El modelo no necesita memorizar todo el texto palabra por palabra.

No, solo necesita un cierto conjunto de patrones, reglas y parámetros para extraer la esencia de la dependencia de este texto, y no hay necesidad de memorizar el texto en sí. Al mismo tiempo, estos parámetros, también llamados coeficientes o pesos, no necesitan ser reevaluados cada vez. Durante la capacitación, se evalúan una vez y se memorizan en un archivo especial.

Y las X, son nuevos cada vez. Es decir, de hecho, cada vez que alimenta a la red neuronal una nueva pieza de texto, para predecir la siguiente palabra, simplemente sustituye los nuevos IC a esta ecuación gigante cada vez, mientras que los coeficientes permanecen sin cambios.

Resulta que cuanto más complejas se almacenan ecuaciones con una gran cantidad de parámetros dentro del modelo de red neuronal, mejor es, más textos conectados genera y así sucesivamente.

GPT-2, que salió en 2019, el modelo resultó ser tan inesperadamente bueno

Al mismo tiempo, incluso GPT-2, que salió en 2019, tiene un modelo tan inesperadamente bueno que los muchachos de OpenAi incluso tenían miedo de publicarlo abiertamente. Bueno, porque decidieron que ahora podían usar esta red neuronal para producir una gran cantidad de falsificaciones en cantidades industriales e inundar todo el Internet con ellos.

Bueno, en serio, ese fue un gran avance. Recuerdas que T9 o GPT-1, bueno, podrían, en el mejor de los casos, Sasha, que caminaba por la carretera, estaba chupando una secadora y no otra cosa. Entonces, GP T-2 ya ha escrito fácilmente un ensayo en nombre de un adolescente sobre el tema de qué cambios económicos y políticos fundamentales se necesitan para responder efectivamente al cambio climático.

Bueno, un tema lo suficientemente grave, incluso muchos adultos obtendrían luz. Y el texto de la respuesta fue enviado bajo un seudónimo de un concurso de ensayos especiales y, en general, el jurado no notó ningún truco.

Bueno, es decir, está bien, no dijeron que este es el mejor trabajo de la historia, que obtiene el primer premio allí, pero, sin embargo, nadie dijo que, como, qué demonios, estás loco, qué generalmente incoherenteconjunto de palabras. Y te voy a leer una cita de una de las bolsas de cuero en el jurado que escribió. Dijo que el ensayo está bien redactado y apoya el reclamo con evidencia, pero la idea no es original.

Bueno, es decir, en general, una buena evaluación, estará de acuerdo. Recuerde, Old Hegel, Marx y Engeles nos contaron sobre la ley de transición de la cantidad a la calidad. Entonces, esta idea de que a medida que aumenta el tamaño del modelo, de repente tiene algunas propiedades nuevas, es bastante sorprendente, debe estar de acuerdo.

Bueno, quiero decir, modelos pequeños, no pudieron hacer mucho, pero un modelo al que solo aumentó el número de parámetros, de repente aprendió a escribir ensayos en lugar de oraciones cortas. Eso es muy bonito.

Hablemos más sobre lo que GP T-2 aprendió después de aumentar el número de parámetros. Hay conjuntos especiales de tareas para resolver la ambigüedad en el texto, que se han utilizado durante mucho tiempo solo para evaluar, bueno, algo así como la razonabilidad de los modelos.

Hay conjuntos de problemas especiales para resolver la ambigüedad en el texto

Por ejemplo:

El pez mordió el anzuelo. Era sabroso. Y el pez mordió el anzuelo. Tenía hambre.

Bueno, no es difícil para una persona darse cuenta, al menos, que si estaba sabroso, debe haber sido cebo, ya que fue tragado. Ahora, si tenía hambre, debe haber sido, esto se refiere al pez que tragó el cebo.

Pero si una modelo mira el texto, no es muy obvio para ella, para ser honesto. Bueno, porque para hacer tales conclusiones, realmente necesitas tener algún modelo simple del mundo en tu cabeza, ¿verdad? Debido a que los peces, en general, pueden tener hambre, si se trata de una piraña salpicando en un estanque, y delicioso, si está acostado en un plato en un restaurante. Y para que un no modelo aprenda a responder tales preguntas, necesita estar bastante bien emocionada, ¿no está de acuerdo?

Entonces, las personas resuelven tales tareas correctamente aproximadamente el 95% del tiempo.

Y los viejos modelos, son, bueno, aquellos con un pequeño número de parámetros, afrontaron solo aproximadamente el 50% del tiempo. Bueno, como en esa broma, ¿cuál es la probabilidad de conocer a un dinosaurio en la calle? 50/50, conoceré uno o no lo haré.

Así que eso es lo que hicimos aquí, básicamente, fue una suposición aleatoria. Y es posible que esté pensando ahora, bueno, una pregunta de mierda, solo necesitamos recopilar una gran base de datos de tales tareas con respuestas, bueno, allí, un par de mil.. Y eso es lo que los investigadores han tratado de hacer en el pasado.

Es decir, capacitaron a redes neuronales especiales sobre la base de tareas, pero se lograron en el mejor de los casos para alcanzar la tasa de éxito del 60%. Pero GPT-2, nadie lo entrenó para hacer eso. Simplemente estaba entrenado en un gran conjunto aleatorio de textos diferentes, y aprendió a resolver tales tareas correctamente el 70% del tiempo.

Es bastante sorprendente, ¿no? Esa es exactamente la transición de la cantidad a la calidad. Y sucede de una manera completamente no lineal. Si aumentamos el número de parámetros en el modelo de 115 a 350 millones, no vemos ningún cambio fuerte.

Pero si aumentamos el número de parámetros hasta 700 millones y más, entonces hay un salto agudo, y el modelo de repente aprende a resolver problemas sobre los peces hambrientos.

Entonces debes darte cuenta de que nadie le ha mostrado estos problemas particulares antes. Es decir, no es que ella estuviera expuesta a una gran cantidad de texto en el entorno, solo encontró ejemplos de tales tareas y aprendidas.

GPT-2 salió en 2019, y superó a su predecesor en términos de entrenamiento de datos de texto

No. Ella simplemente descubrió algo sobre cómo pensar en el mundo en general, y de repente comenzó a resolver estas tareas mucho mejor que sus colegas especializados.

Resumen rápido: GPT-2 salió en 2019, y superó a su predecesor tanto en la cantidad de datos de texto de entrenamiento como en el tamaño del modelo en sí, es decir, el número de parámetros por un factor de 10.

Este crecimiento cuantitativo resultó en el modelo de repente a sí mismo en habilidades cualitativamente nuevas, desde componer ensayos largos con significado conectado, hasta resolver tareas difíciles que requieren rudimentos para construir una imagen del mundo. Después de jugar un poco con el modelo, que se había engordado y gordo.

2020: GPT-3, o The Incredible Hulk

GPT-2, los muchachos de OpenAI decidieron aumentar el tamaño del modelo en 100 veces.

2020 GPT-3, o el increíble casco.

En general, GPT-3, lanzado en 2020, ya podría presumir 116 veces más parámetros, esta vez 175 mil millones. Y el modelo en sí pesaba un increíble 700 gigabytes. El conjunto de datos para el entrenamiento GPT-3 también se bombeó, aunque no tan radicalmente. Creció 10 veces a 420 gigabytes. Un montón de libros diferentes, Wikipedia, sitios web, etc. estaban llenos allí. En general, es simplemente poco realista que una persona viva se traga tal volumen de información.

A menos que coloque una docena de Wassermans Anatoly para leer información diferente de Internet durante 50 años cada uno sin parar, solo sin descansos. Un matiz interesante llama inmediatamente la atención. A diferencia de su predecesor GP T-2, el nuevo modelo GP T-3, es aún mayor en tamaño, 700 gigabytes, que el texto completo en el que fue entrenado, 420 gigabytes. Resulta ser como una paradoja.

Es decir, el modelo leyó un texto de 400 gigabytes y, sin embargo, de alguna manera extrajo 700 gigabytes de información.

El modelo leía 400 gigabytes de texto y, sin embargo, de alguna manera extrajo hasta 700 gigabytes de información de él.

Más de lo que parece contener en el interior. Y esta generalización, o podemos decir la comprensión del modelo, le permite extrapolar incluso mejor que antes. Es decir, puede resolver problemas basados en textos que fueron casi muy raramente o que nunca se encontraron en el conjunto de datos de capacitación. Y ahora definitivamente ya no es necesario enseñar a GPT-3 cómo resolver problemas estrechos.

No, puedes decirle lo que necesitas, arrojar un par de ejemplos, y GPT-3 descubrirá lo que quieres obtener al final. Y luego, una vez más, resultó que el Hauk universal en forma del modelo GP T-3, de repente, con facilidad se pone en ambas cuchillas de muchos modelos especializados, que se agudizaron exactamente una tarea estrecha.

Bueno, por ejemplo, la traducción de textos de francés o alemán al inglés se dio a GP T-3 mucho mejor que muchos modelos especializados, lo que en realidad es bastante sorprendente. Bueno, quiero decir, te recuerdo que todas estas redes neuronales, se agudizan exactamente para una tarea, para predecir la siguiente palabra que viene después del texto actual.

Pero nadie enseñó a GPT-3 a traducir específicamente, pero de alguna manera aprendió estas capacidades por sí sola.

Nadie enseñó a GPT-3 cómo traducir, pero de alguna manera aprendió estas capacidades por su cuenta.

¿De dónde sacó sus habilidades de traducción? Es difícil saberlo de un vistazo. Pero ese no es el final de la historia. Aún más sorprendente es que GP T-3 pudo enseñarse matemáticas. En la pantalla puede ver un gráfico que muestra la precisión de las redes neuronales con un número diferente de parámetros que responden tareas relacionadas con la adición o la resta, así como la multiplicación de números de hasta cinco dígitos. Y, como puede ver, cuando se mueve de un modelo con 10 mil millones de parámetros a 100 mil millones, las redes neuronales de repente y bruscamente comienzan a poder hacer matemáticas.

Una vez más, piénselo, el modelo de idioma simplemente se le enseñó a continuar los textos con palabras, y de alguna manera logró darse cuenta de que si 378 más 789 se le escribe como entrada, debería responder a él como 1167, y no como otrosconjunto aleatorio de números.

La magia, debes estar de acuerdo, es la verdadera magia. Aunque muchos dicen que, de hecho, la red neuronal simplemente en el conjunto de datos de capacitación memorizó todos los ejemplos y respuestas posibles. Así que aquí está el debate que sigue sucediendo, es este loro o magia real.

Sin embargo, el hecho es que a medida que aumenta el tamaño de los parámetros del modelo, de repente comienzan a brotar algunas habilidades especiales nuevas que nadie puso específicamente. Y ahora en la pantalla puede ver una animación en forma de árbol, como nuevamenteA medida que crecen los parámetros del modelo, las nuevas habilidades reales brotan en él.

Y, por cierto, aquí está el problema de los peces hambrientos, que hemos discutido antes, y que atormentado GP T-2, GP T-3 ya ha podido resolver al nivel del 90% de precisión. Quiero decir, como un ser humano.

Y realmente te hace preguntarte, ¿qué pasaría si aumenta el número de parámetros en el modelo por otras 100 veces?¿Qué nuevas habilidades aprenderá entonces?

Hagamos un poco de digresión aquí y hablemos de indicaciones.

Indicaciones o cómo persuadir a un modelo de la manera correcta

Las indicaciones son solo consultas de texto al modelo sobre el que debe continuar. Y la calidad de la respuesta dependerá mucho de cómo formule este PROMT.

Por ejemplo, si le pide a una red neuronal que resuelva algún problema matemático simple en el nivel de quinto o sexto grado, a menudo comete un error y escribe el número incorrecto. Pero hay una palabra mágica, si la agregas al final de tu promt, el modelo de repente comienza a resolverla mucho mejor.

Y no es «por favor», pero las palabras «pensemos paso a paso», es decir, «pensemos paso a paso». Y si le dice esto al modelo, comienza a resolver el problema paso a paso como un colegial y llega a la respuesta correcta.

Es bastante sorprendente, ya sabes. Entonces realmente puedes enseñarle cómo pensar correctamente, como podrías decir. Y al mismo tiempo, las empresas ahora incluso contratan puestos especiales de ingenieros de Promt, llamados, que solo saben cómo hablar el mismo idioma con el modelo.

Predigo que pronto habrá un montón de cursos de información de información, como «Aprenda la ingeniería de Promt adecuada en 6 semanas y ingrese a una especialidad prometedora por 300 mil rublos al mes».

Bueno, en realidad es lógico, porque las redes neuronales como ChatGPT se están convirtiendo en herramientas indispensables para las personas. Y es muy probable que en muchas especialidades sea necesaria poder comunicarse adecuadamente con un modelo para lograr resultados en su profesión.

Resumen rápido: GP T-3 de la muestra 2020 fue 100 veces mayor que su predecesor en términos de número de parámetros y 10 veces más grande en términos de datos de entrenamiento. Nuevamente, el aumento en la cantidad condujo a un salto repentino en calidad. El modelo aprendió la traducción de otros idiomas, aritmética, programación básica, razonamiento paso a paso y más.

Enero de 2022: InstrucctPpt

Educar una red neuronal estriada por sí misma no significa que responderán a las consultas exactamente como el usuario quiere que lo hagan. Bueno, porque cuando las personas se preguntan por algo, a menudo tienen en mente muchas aclaraciones adicionales ocultas, que ni siquiera se pueden hablar, porque cualquier gente normal puede entenderlo tal como es.

Bueno, por ejemplo, imagina que Masha le pregunta a su esposo «Vasya, ve a tirar la basura». Y probablemente no se le ocurra agregar a esta solicitud «Solo, por favor, no desde la ventana». Bueno, porque Vasya, como cualquier persona normal, entiende que la pregunta se trata de tomar la basura, bajar las escaleras, llegar al bote de basura y tirarlo allí. Pero los patrones de idiomas, para ser honestos, no son muy similares a los humanos.

Es por eso que muy a menudo tienen que masticar las cosas en sus solicitudes y explicar cosas que son obvias para las personas literalmente. Las palabras «pensemos paso a paso» del ejemplo anterior, se refieren a este tipo de masticación. Bueno, porque los adultos promedio, creo, habrían adivinado por sí mismos que si estamos hablando de un problema matemático, necesitamos resolverlo por pasos, por acciones.

Y los modelos tienen que ser explicados. Y sería genial que los modelos, de alguna manera, aprenderan a encontrar instrucciones más detalladas de instrucciones cortas, en función de lo que esperan, lo que a la persona le gustaría ver. Y en segundo lugar, aprenderían cómo ejecutar estas instrucciones de tal manera que predecir las expectativas de las personas.

Elevar una obstinada red neuronal no significa en sí mismo

Parte de la falta de capacidad de los modelos para predecir los deseos de las personas se debe al hecho de que GPT-3, bueno, es solo un modelo de idioma que está entrenado en una gran cantidad de textos de Internet. Y ya sabes, hay muchas cosas escritas en Internet, al igual que en la cerca, pero no siempre es útil y buena información.

Pero a la gente le gustaría la inteligencia artificial nacida de esta manera para aprender de alguna manera a encontrar respuestas precisas y buenas por sí misma, pero al mismo tiempo no ser tóxico y no ofender a nadie. Bueno, de lo contrario, una red neuronal de este idioma rápidamente zakenselat, con esto hoy en día las cosas son bastante ágiles, y sus creadores simplemente traerán demandas gigantes en la corte por el hecho de que su modelo insulta bolsos de cuero y, en general, Zigovayutsya por todas partes.

Y así, cuando los investigadores pensaron en este problema, descubrieron bastante rápido que tales propiedades del modelo son precisión y utilidad e inofensiva o no toxicidad, están en antifase entre sí, bueno o contradicen entre sí.

Después de todo, un modelo preciso debería responder honestamente la pregunta «Bien, Google, ¿cómo hacer un cóctel Molotov sin registro y SMS?». Y, por el contrario, aquí está el modelo más inofensivo en el límite, responderá cualquier pregunta «Lo siento, no lo sé, porque mi respuesta puede ofender a alguien en Internet».

Resulta que crear una inteligencia artificial que esté alineada en términos de valores con los humanos es una tarea tan difícil encontrar un equilibrio y la respuesta correcta es esencialmente no está allí. Y en torno a todo este problema de alineación de IA, o en inglés se llama alineación de AI, hay una gran cantidad de problemas éticos. No vamos a tratar con todos ellos ahora. Ese es un tema para uno de los próximos videos.

Pero solo diré aquí que uno de los problemas es que hay una gran cantidad de situaciones éticas, dilemas éticos. Y no hay una respuesta correcta para la mayoría de ellos. Bueno, piénsalo, personas por 10 mil historias, más o menos grabadas, ni siquiera pueden estar de acuerdo entre ellos lo que está bien, qué está mal, en qué Dios creer, etc.

Qué decir que podrían escribir algunas reglas comprensibles para un robot, para que todas las personas estén de acuerdo en que, sí, así es exactamente como debería comportarse un robot. No, desafortunadamente, esto es utopía.

E incluso las tres reglas de robótica de Isaac Asimov, no son tan obvias, para ser honestos, si las aplica a las redes neuronales. Y al final, a los investigadores no se les ocurrió nada mejor que darle a la red neuronal muchos comentarios.

Si lo piensas, bebés humanos, están entrenados en moralidad de esta manera. Hacen muchas cosas diferentes desde la infancia y miran de cerca a los adultos. Y, en resumen, el GPT Instrakt que finalmente llegamos, también conocido como GP T-3. 5, es solo el modelo de red neuronal GP T-3 que fue entrenado en los comentarios de un ser humano vivo

Por lo tanto, fue diseñado para maximizar el puntaje de este tipo de jurado de carne, por así decirlo. Literalmente, un grupo de personas estaban sentados, y estaban evaluando un montón de respuestas de redes neuronales para ver si eran buenas, si eran similares a lo que estas personas esperaban o no. Y la red neuronal, salió y fue entrenado para hacer una tarea adicional, y así fue como ajusto mi respuesta para que complaciera al mayor número de personas.

Y, en términos del proceso general de capacitación de modelos, esta etapa final antes de aprender de los comentarios de las personas vivas, se necesita, bueno, no más del 1%. Pero fue este toque final el que se convirtió en la salsa secreta que hizo que GP T-3 . 5, todos los modelos posteriores de la familia GPT, tan sorprendente. Es decir, resulta, el GP T-3 tenía todas las habilidades que necesitaba antes. Recordaba una gran cantidad de textos, sabía que los idiomas extranjeros, etc., podían imitar los estilos de diferentes autores. Pero fueron los comentarios de las personas lo que hizo que este modelo fuera tan genial que las personas se dieron cuenta de sus respuestas.

Entonces, resulta que GP T-3 . 5 o instructivo, es, por así decirlo, el primer modelo de red neuronal que la sociedad fomentó en la realidad. Breve resumen. GP T-3 . 5 salió a principios de 2022. Y su principal truco fue el pr e-aprendizaje adicional basado en los comentarios de las personas vivas. Resulta que este modelo no se ha vuelto formalmente más grande e inteligente, pero ha aprendido a ajustar sus respuestas de tal manera que las personas se vuelvan muy altas de ellas.

Noviembre de 2022: ChatGPT – ¡Todos se drogaron!

Bueno, finalmente, llegamos al chat GPT. Fue lanzado en noviembre de 2022. En unos 10 meses más o menos después de su predecesor instructive o GP T-3. 5 e instantáneamente causó un chapoteo en todo el mundo. Parece que durante los últimos meses, incluso las abuelas en el banco frente a la entrada que están discutiendo entre ellos, y lo que hay nuevo dijo este chat GPT, lo que ha aprendido y a quién dejará pronto desempleado. Al mismo tiempo, desde un punto de vista técnico, parece que Chat GPT no tiene diferencias particularmente fuertes con respecto al mismo instructo.

Es decir, aparentemente, no se ha vuelto mucho más grande o más inteligente ni nada más. Aunque solo podemos adivinar aquí, porque OpenAi, no han publicado un estudio científico específico, artículos científicos sobre este tema.

Pero, sin embargo, podemos adivinar por los signos óseos que realmente no hay diferencias cardinales en el tamaño de los parámetros, etc. De acuerdo, bueno, sabemos sobre algunas cosas que estaba un poco entrenado en un conjunto adicional de datos, porque este formato de diálogo, en el que cambió el chat GPT, todavía introduce ciertas condiciones adicionales.

Bueno, por ejemplo, si no entiende algo, puede preguntarle al usuario. Y modelos anteriores, no sabían eso. Pero, nuevamente, este no es un cambio técnico radical. Es solo una pequeña modificación. Y eso plantea la pregunta, ¿cómo es que?¿Por qué no escuchamos ninguna exageración sobre GPT 3 . 5 a principios de 2022?

Incluso Sam Altman, el director ejecutivo de Openai, escribió en Twitter que nos sorprendió que la pista de chat GPT se volviera viral justo después de su lanzamiento. Quiero decir, hubo un modelo de idioma similar en el dominio público durante 10 meses antes de eso, y nadie incluso rascó la superficie. Y es sorprendente, pero parece que el principal secreto del éxito del chat GPT es solo una interfaz conveniente.

Bueno, debido a que Instrike GPT o GPT 3 . 5, solo se puede acceder a través de una interfaz API especial. Es decir, solo los nerds y los tipos de TI que saben un poco sobre la programación podrían hacerlo. Pero personas comunes, solo tenían acceso a GPT Chat, porque lo atornillaron una interfaz de cuadro de diálogo completamente familiar y conveniente, como en cualquier mensajero habitual, y abrieron acceso público para todos.

Y la gente se apresuró a hablar con la red neuronal, a capturar sus respuestas más divertidas y publicarlas en todas partes en las redes sociales, y la exageración simplemente explotó. Como en cualquier startup tecnológica, no fue solo la tecnología en sí la que era importante aquí, sino también la envoltura en la que estaba envuelta. Es decir, puede tener el modelo de idioma más inteligente, la mejor red neuronal, artificialmente inteligente, pero si no viene con una interfaz fácil de usar que todos puedan entender, entonces tal vez a nadie le importe estúpidamente un maldito.

Y la sala de chat GPT realmente se ha revolucionado en este sentido. Es decir, realmente hizo una interfaz de diálogo tan genial, conveniente y familiar, en la que un robot amigable escribe su respuesta por palabra. Y no es de extrañar que el chat GPT establezca un registro absoluto en popularidad.

Alcanzó la marca de 1 millón de usuarios en los primeros 5 días después del lanzamiento.

Es decir, la marca de 1 millón de usuarios que alcanzó en los primeros 5 días después del lanzamiento, y pasó 100 millones de usuarios en solo 2 meses. Esta es simplemente una velocidad sorprendente sin precedentes de atraer nuevos usuarios.

Bueno, donde hay una afluencia récord de cientos de millones de usuarios, por supuesto, también hubo rápidamente una afluencia de dinero enorme. Microsoft anunció que están listos para invertir 10 mil millones de dólares en Operai para hacer todo tipo de cosas junto con ellos. Google sonó la alarma y se sentó para pensar cómo podrían salvar su negocio de búsqueda de la invasión de las redes neuronales.

Los chinos también anunciaron inmediatamente que planeaban hacer algo interesante allí. En general, todos comenzaron a obtener un exceso de exageración, bombeando mucho dinero. Pero, para ser honesto, esta es una historia completamente diferente, que puedes ver en vivo en este momento, por así decirlo.

Resumen rápido: El modelo de chat GPT salió en noviembre de 2022. Y desde un punto de vista técnico no hubo innovaciones especiales. Pero tenía una interfaz de interacción conveniente y un acceso público abierto, lo que inmediatamente creó una gran ola de publicidad. Y en el mundo de hoy, eso es lo que más importa.

Chat GPT: red neuronal en español. servicio online en españa