Colección de citas famosas - Slogan de motivación - BERT - Interpretación en papel

BERT - Interpretación en papel

BERT: entrenamiento previo de transformadores bidireccionales profundos para

comprensión del lenguaje

○ Generalmente existen dos estrategias para aplicar modelos de lenguaje previamente entrenados a tareas posteriores. :

El autor cree que el cuello de botella que afecta al modelo de lenguaje preentrenado actual es: "el modelo es unidireccional". Por ejemplo, GPT elige una arquitectura de izquierda a derecha, lo que permite que cada token solo note el token anterior. Esto tiene un impacto menor en las tareas a nivel de oración, pero tiene un impacto enorme en las tareas a nivel de token. Por ejemplo, en tareas de preguntas y respuestas, es crucial incorporar contexto de ambas direcciones.

BERT alivia el problema de restricción unidireccional de los modelos anteriores mediante el uso de un modelo de lenguaje de máscara (MLM) inspirado en la tarea cloze. MLM enmascara aleatoriamente algunos tokens en el texto de entrada y luego predice los tokens enmascarados en función del contexto restante. Además del modelo de lenguaje de máscara, el autor también propuso la tarea de predicción de la siguiente secuencia para entrenar conjuntamente la representación de pares de texto.

Las mejoras a BERT en el documento son las siguientes:

La representación general del lenguaje antes del entrenamiento previo tiene una larga historia En esta sección revisamos brevemente los métodos más utilizados.

2.1 Métodos no supervisados ​​basados ​​en características:

El aprendizaje de representaciones léxicas de amplia aplicación ha sido un área activa de investigación durante décadas, incluidos los métodos de sistemas neuronales y sistemas no neuronales. Las incrustaciones de palabras previamente entrenadas son una parte integral de los sistemas modernos de PNL y proporcionan mejoras significativas con respecto a las incrustaciones aprendidas desde cero (Turian et al., 2010). Para entrenar previamente los vectores de incrustación de palabras, se han utilizado objetivos de modelado del lenguaje de izquierda a derecha (Mnih y Hinton, 2009), así como el objetivo de distinguir palabras correctas de palabras incorrectas en contextos de izquierda y derecha (Mikolov et al., 2013).

Estos métodos se han generalizado a una granularidad más gruesa, como la incrustación de oraciones (Kiros et al., 2015; Logeswaran y Lee, 2018) o la incrustación de párrafos (Le y Mikolov, 2014). Para entrenar representaciones de oraciones, trabajos anteriores han utilizado objetivos para clasificar las siguientes oraciones candidatas (Jernite et al., 2017; Logeswaran y Lee, 2018), generando palabras de la siguiente oración de izquierda a derecha en función de la representación de la oración anterior (Kiros et al. ., 2015), o eliminar el ruido de objetivos derivados de codificadores automáticos (Hill et al., 2016).

ELMo y su predecesor (Peters et al., 20172018a) resumen la investigación tradicional sobre incrustación de palabras desde diferentes dimensiones. Extraen características sensibles al contexto de modelos de lenguaje de izquierda a derecha y de derecha a izquierda. La representación contextual de cada token es una concatenación de representaciones de izquierda a derecha y de derecha a izquierda. Al combinar incrustaciones de palabras contextuales con arquitecturas específicas de tareas existentes, ELMo avanza el estado del arte en varios puntos de referencia importantes de PNL (Peters et al., 2018a), incluida la respuesta a preguntas (Rajpurkar et al., 2016) y el análisis de sentimientos. (Socher et al., 2016) y reconocimiento de entidades nombradas (Tjong Kim-Sang y De Meulder, 2003). Melamud et al. (2016) propusieron aprender representaciones contextuales mediante una tarea de predicción de palabras individuales de contextos izquierdo y derecho utilizando LSTM. Al igual que ELMo, su modelo se basa en funciones en lugar de ser profundamente bidireccional. Fedus et al. (2018) demostraron que las tareas de cierre se pueden utilizar para mejorar la solidez de los modelos de generación de texto.

2.2 Método de ajuste fino no supervisado:

Al igual que el método basado en características, el primer método solo funciona si los parámetros de incrustación de palabras están previamente entrenados en texto sin etiqueta. Recientemente, los codificadores de oraciones o documentos que producen representaciones etiquetadas contextualmente se han entrenado previamente a partir de texto sin etiquetar y se han ajustado para tareas posteriores supervisadas.

La ventaja de estos métodos es que es necesario aprender pocos parámetros desde cero. Al menos en parte debido a esta ventaja, OpenAI GPT logró resultados de vanguardia en muchas tareas a nivel de oración en el punto de referencia GLUE. Se han utilizado objetivos de codificación automática y modelado de lenguaje de izquierda a derecha para el entrenamiento previo de dichos modelos.

Nota: programa general de preformación y ajuste de BERT. Excepto por la capa de salida, se utiliza la misma arquitectura en el entrenamiento previo y el ajuste. Los mismos parámetros del modelo previamente entrenado se utilizan para inicializar modelos para diferentes tareas posteriores. Durante el proceso de ajuste, se ajustan todos los parámetros.

2.3 Transferir el aprendizaje basado en datos supervisados:

Los estudios también han demostrado que las tareas supervisadas, como el razonamiento en lenguaje natural y la traducción automática, se pueden transformar de manera efectiva en grandes conjuntos de datos. La investigación sobre visión por computadora también ha demostrado la importancia del aprendizaje por transferencia a partir de grandes modelos previamente entrenados. Un método eficaz es ajustar los modelos previamente entrenados utilizando ImageNet.

Esta sección presentará BERT y su implementación detallada. Hay dos pasos en nuestro marco: preentrenamiento y ajuste.

Una característica distintiva de BERT es su arquitectura unificada en diferentes tareas. La diferencia entre la arquitectura previamente entrenada y la arquitectura final final es mínima.

La arquitectura del modelo BERT es un codificador transformador bidireccional multicapa. BERT tiene una implementación casi idéntica al codificador transformador.

Definición: el número de bloques transformadores es L; el tamaño oculto es H; el número de cabezas de autoatención es A. El autor muestra principalmente dos escalas de modelos BERT:

En este trabajo, denotamos el número de capas (es decir, bloques transformadores) como L, el tamaño de ocultación como H y el número de cabezas de autoatención como A. Informamos principalmente los resultados de dos modelos:

A modo de comparación, se elige BERT-base para que tenga el mismo tamaño de modelo que OpenAI GPT. Sin embargo, el punto clave es que BERT Transformer utiliza un mecanismo de autoatención bidireccional, mientras que GPT Transformer utiliza un mecanismo de autoatención restringido, donde cada marcador solo puede prestar atención al contexto a su izquierda.

Para permitir que BERT maneje una gran cantidad de tareas posteriores diferentes, el autor diseñó la entrada del modelo para poder ingresar una sola oración o un par de oraciones, y las dos entradas se modelaron como la misma secuencia de tokens. El autor utiliza un vocabulario integrado de 30.000 tokens.

3.1 Entrenamiento previo de BERT:

No utilizamos modelos de lenguaje tradicionales de izquierda a derecha o de derecha a izquierda para entrenar previamente a BERT. En su lugar, entrenamos previamente a BERT utilizando las dos tareas no supervisadas que se describen en esta sección. Este paso se muestra en la mitad izquierda de la Figura 1.

Tarea nº1: LM enmascarado

Los modelos de lenguaje estándar solo pueden lograr un entrenamiento de izquierda a derecha o de derecha a izquierda, y no pueden lograr un verdadero entrenamiento bidireccional. Esto se debe a que es bidireccional. La condición es que cada palabra pueda "verse a sí misma" directamente y el modelo pueda predecir fácilmente la palabra objetivo en un contexto de múltiples capas.

Para lograr un entrenamiento previo profundo bidireccional, el autor elige enmascarar aleatoriamente una cierta proporción de tokens y luego predice estos tokens enmascarados. Bajo esta configuración, la representación vectorial oculta de los tokens enmascarados. se envía al softmax del vocabulario, que es el mismo que la configuración del modelo de lenguaje estándar. El autor llama a este proceso "LM enmascarado", también conocido como "cloze".

○ Desventajas de la tarea de preentrenamiento de LM enmascarado:

La marca [MASK] no aparece en la fase de ajuste fino, lo que provoca inconsistencia entre el preentrenamiento y el fino. -fases de sintonización. Para resolver este problema, el autor propuso una solución de compromiso:

○ Estrategia de máscara de BERT:

Tarea n.° 2: Predicción de la siguiente oración (NSP)

Muchas tareas posteriores se basan en comprender la relación entre dos oraciones y los modelos de lenguaje no pueden capturar directamente esta información. Para entrenar el modelo para que comprenda esta relación entre oraciones, el autor diseñó una tarea de dos clasificaciones para predecir la siguiente oración. Específicamente, se seleccionan dos oraciones como muestra de entrenamiento, con un 50% de probabilidad de que sea la siguiente relación de oración y un 50% de probabilidad de que sea un par de oraciones seleccionadas al azar, y se predice el estado oculto final C de [CLS] para ser ingresado en la implementación sigmoidea.

○ Datos previos al entrenamiento:

El autor seleccionó BooksCorpus (800 millones de palabras) y Wikipedia en inglés (2500 millones de palabras) como corpus previos al entrenamiento, y el autor solo seleccionó textos en Wikipedia. Se ignoran párrafos, tablas, encabezados, etc. Para obtener secuencias de texto largas y continuas, el autor eligió un corpus a nivel de documento como BIllion Word Benchmark en lugar de un corpus codificado a nivel de oración.

3.2 Ajuste fino de BERT:

Debido a que el mecanismo de autoatención en el transformador es adecuado para muchas tareas posteriores, el modelo se puede ajustar directamente. Para tareas que involucran pares de texto, el enfoque general es codificar los pares de texto de forma independiente y luego aplicar atención cruzada bidireccional para la interacción. Bert unifica estas dos etapas utilizando un mecanismo de autoatención, que permite directamente la codificación cruzada de dos oraciones concatenadas.

Para diferentes tareas, simplemente inserte la entrada y salida específicas de esa tarea en Bert y luego realice un ajuste fino de extremo a extremo.

El ajuste fino es relativamente económico en comparación con el entrenamiento previo. A partir exactamente del mismo modelo previamente entrenado, todos los resultados de este artículo se pueden reproducir en hasta 1 hora en una sola TPU en la nube, o varias horas en una GPU.

En esta sección, presentaremos los resultados del ajuste fino de BERT para 11 tareas de PNL.

4.1 GLUE:

GLUE (Evaluación de comprensión general del lenguaje) es una colección de múltiples tareas de PNL. El autor establece el tamaño del lote en 32; entrena durante 3 épocas; selecciona la tasa de aprendizaje óptima entre (5e-5, 4e-5, 3e-5, 2e-5) en el conjunto de validación.

Los resultados son los siguientes:

Los resultados se muestran en la Tabla 1. BERT-base y BERT-large superaron a todos los sistemas en todas las tareas, logrando mejoras de precisión promedio del 4,5 % y 7,0 %, respectivamente, en comparación con el estado del arte. Tenga en cuenta que, excepto por el enmascaramiento de atención, BERT-base y OpenAI GPT son casi idénticos en términos de arquitectura de modelo.

Para la tarea GLUE más grande y más ampliamente reportada, MNLI, BERT logró una mejora absoluta en la precisión del 4,6%. En el ranking oficial de GLUE 10, BERT-lagle obtuvo 80,5 puntos, mientras que OpenAI GPT obtuvo 72,8 puntos en el momento de escribir este artículo. Descubrimos que BERT-large supera significativamente a BERT-base en todas las tareas, especialmente aquellas con pocos datos de entrenamiento.

4.2 SQuAD v1.1:

El conjunto de datos de respuesta a preguntas de Stanford (SQuAD v1.1) recopila 100.000 pares de preguntas y respuestas de colaboración colectiva. Dada una pregunta y un artículo de Wikipedia que contiene la respuesta, la tarea es predecir el texto de la respuesta en el artículo.

Como se muestra en la Figura 1, en la tarea de preguntas y respuestas, representamos las preguntas y párrafos de entrada como una única secuencia comprimida, utilizando incrustaciones A para preguntas e incrustaciones B para párrafos. Durante el proceso de ajuste fino, solo introducimos un vector inicial S y un vector final E. La probabilidad de que la palabra i sea el comienzo del rango de respuestas se calcula como el producto escalar entre Ti y S, luego el softmax de todas las palabras en el párrafo:

Se utiliza una fórmula similar para el final del rango de respuesta. La puntuación del candidato desde la posición i a la posición j se define como: S·Ti + E·Tj, y el intervalo de puntuación máximo de j≥i se utiliza como predicción. El objetivo del entrenamiento es la suma de las probabilidades logarítmicas de las posiciones inicial y final correctas. Ajustamos 3 etapas con una tasa de aprendizaje de 5e-5 y un tamaño de lote de 32.

La Tabla 2 muestra las entradas mejor clasificadas, así como los resultados de los principales sistemas de publicación. Las clasificaciones principales de SQuAD no tienen las descripciones de sistemas públicos más recientes y se permite utilizar cualquier dato público al entrenar el sistema. Por lo tanto, utilizamos un aumento moderado de datos en nuestro sistema, ajustando primero TriviaQA y luego en el equipo.

Nuestro sistema de mejor rendimiento superó al sistema n.º 1 en conjunto por +1,5 F1 en conjunto y superó al sistema n.º 1 en conjunto por +1,5 F1 Sistema mejor clasificado +1,3 puntuación F1. De hecho, nuestro modelo BERT único supera a los mejores sistemas de conjunto en términos de rendimiento F1. Sin los datos de ajuste de TriviaQA, solo perderíamos 0,1-0,4 F1, que sigue siendo mucho mejor que todos los sistemas existentes.

Otros experimentos: omitido

En esta sección, realizamos experimentos de ablación en muchos aspectos de BERT para comprender mejor su importancia relativa. En el Apéndice C se proporcionan estudios de ablación adicionales.

5.1 Efecto de la tarea previa al entrenamiento:

○ Se realizó la siguiente prueba de ablación:

○ Los resultados son los siguientes:

5.2 Impacto del tamaño del modelo:

○ Los resultados son los siguientes:

Los autores demostraron que si el modelo está completamente entrenado previamente, incluso si el tamaño del modelo se extiende a un tamaño grande tamaño, el tamaño de los datos de entrenamiento se puede mejorar enormemente en las tareas posteriores.

5.3 Aplicar Bert al método basado en funciones:

○ El método basado en funciones extrae funciones fijas del modelo previamente entrenado y no ajusta tareas específicas.

○ Este método también tiene ciertas ventajas:

El autor realizó los siguientes experimentos: completó la tarea NER en el conjunto de datos CoNLL-2003, sin utilizar la salida CRF, pero de uno a Los valores de activación se extraen de múltiples capas, se ingresan en el BiLSTM de 768 dimensiones de 2 capas y luego se clasifican directamente. Los resultados son los siguientes:

Descripción de los resultados: El modelo Bert es efectivo independientemente de si está ajustado o no.

Personalmente, creo que la importancia de Bert es:

Debido al aprendizaje por transferencia de modelos lingüísticos, las mejoras empíricas recientes han demostrado que un entrenamiento previo rico y no supervisado es un componente de muchos lenguajes. parte de comprensión de sistemas. En particular, estos resultados permiten que incluso las tareas de bajos recursos se beneficien de arquitecturas unidireccionales profundas. Nuestra principal contribución es generalizar aún más estos hallazgos a arquitecturas bidireccionales profundas, permitiendo que el mismo modelo previamente entrenado maneje con éxito una amplia gama de tareas de PNL.