¿Cuáles son los defectos arquitectónicos del modelo de lenguaje autorregresivo de GPT en términos de representación de la información? ¿Cómo mejorar?
Después de Bert, GPT-2 de OpenAI es uno de ellos. Tiene un rendimiento sorprendente en la generación de texto que supera las expectativas de los modelos de lenguaje actuales en términos de coherencia contextual y expresión emocional. En términos de arquitectura del modelo, GPT-2 no tiene una arquitectura particularmente novedosa, similar al decodificador de "Transformers". En comparación con GPT-1, GPT-2 utiliza un modelo más predecible, más grande y más profundo.
Se eliminó el foco del decodificador en el codificador del decodificador de Transformers. Es decir, se elimina el proceso de eliminación de seq2seq.
GPT es un modelo de lenguaje. En cada momento, solo se puede ver la información anterior al momento actual. Este es un proceso autorregresivo.
Los cambios de tamaño de GPT2 y estados ocultos se dividen en pequeños, medianos, grandes y extra grandes según el número de pisos.
El proceso de entrenamiento de GPT consiste en realizar una predicción cruzada de la siguiente palabra y la prueba consiste en ingresar una oración para generar otra oración.
La formación preliminar de GPT consiste en entrenar un modelo de lenguaje. La capacitación previa de BERT es la tarea de enmascarar el modelo de lenguaje y NSP.
GPT consta de varios módulos decodificadores, cada uno de los cuales consta de redes neuronales de autoatención enmascaradas y de retroalimentación.
El estado oculto de una marca de tiempo se convierte en una incrustación del tamaño del vocabulario a través de una capa lineal, y luego la probabilidad de cada palabra se calcula a través de softmax, la palabra con mayor probabilidad se encuentra como la salida de predicción, y luego el siguiente momento es Las palabras se utilizan como salida real y se calcula la entropía cruzada de las dos para entrenar el modelo.
Las posiciones después de cada marca de tiempo se enmascaran y se establece un valor de tamaño de grupo negativo. Al hacer softmax, el valor de esta posición es 0.
2) Resumen
Construcción del decodificador transformador
Realice entrenamiento de modelos de lenguaje en la capacitación inicial.
GPT2 utiliza más bloques y más profundos.
Bert es NLU, pero no puede ser reemplazado.
Gpt es un modelo de lenguaje natural muy adecuado para tareas generativas. Lo que se puede hacer en Bert, también se puede hacer en GPT.
Además de GPT-2, GPT-3 continúa con su modo de entrenamiento de modelo de lenguaje unidireccional, pero el tamaño del modelo aumenta de 654,38 mil millones a 75 millones, utilizando 45 TB de datos para el entrenamiento.