Métodos comunes para tareas de etiquetado de secuencias
Estos elementos se pueden contar del corpus de entrenamiento. Finalmente, basándose en estas estadísticas, se utiliza el algoritmo de Viterbi para calcular la secuencia de etiquetas detrás de la secuencia de palabras. El reconocimiento de entidades nombradas es esencialmente una anotación de secuencia. Solo definiendo las etiquetas y cadenas de patrones correspondientes se pueden extraer entidades de la secuencia de anotaciones.
Suponga que puede escribir una fórmula de una palabra para el tiempo t:
Hipótesis de Markov homogénea: el estado de la cadena de Markov oculta en cualquier momento t depende solo de su estado en cualquier momento t El estado en el momento anterior no tiene nada que ver con los estados y observaciones en otros momentos, y no tiene nada que ver con el tiempo t.
Supuesto de independencia de observación: Se supone que el valor de observación en cualquier momento solo depende del estado de la cadena de Markov en ese momento, y no tiene nada que ver con otros valores o estados de observación. La fórmula de probabilidad de observación se puede expresar de la siguiente manera:
Combinando la probabilidad de transmisión y la probabilidad de transición, obtenemos la fórmula final de la oración completa:
En comparación con HMM, CRF tiene dos ventajas .
Supongamos que es una secuencia de observación, una secuencia de estados y un parámetro del modelo CRF, entonces la probabilidad condicional es:
dónde está el conjunto de funciones características CRF, más el término regular , se puede obtener mediante transformación digital.
El objetivo de la formación CRF es maximizar las soluciones.
El modelo BiLSTM-CRF aplicado por NER consta principalmente de una capa de incrustación (principalmente vectores de palabras, vectores de palabras y algunas características adicionales), una capa LSTM bidireccional y una capa CRF final. Los resultados experimentales muestran que biLSTM-CRF ha alcanzado o superado el modelo CRF basado en características ricas y se ha convertido en el modelo más común entre los métodos NER basados en aprendizaje profundo. En términos de características, este modelo hereda las ventajas de los métodos de aprendizaje profundo y no requiere ingeniería de características. Puede lograr buenos resultados utilizando vectores de palabras y vectores de caracteres. Podría mejorarse aún más si tuviera funciones de diccionario de alta calidad.
Los filtros CNN normales siempre actúan sobre un área continua de la matriz de entrada y se deslizan continuamente para realizar la convolución. La dilatación CNN agrega un ancho de expansión al filtro. Cuando se aplica a la matriz de entrada, todos los datos de entrada en el medio del ancho de expansión se omiten, pero el tamaño del filtro en sí permanece sin cambios, lo que hace que el filtro obtenga más información; la matriz de entrada. Los datos amplios parecen ser un aumento inflado. En un uso específico, el ancho expandido aumentará exponencialmente a medida que aumente el número de capas. De esta manera, a medida que aumenta el número de capas, el número de parámetros aumenta linealmente, mientras que el campo receptivo aumenta exponencialmente, lo que puede cubrir rápidamente todos los datos de entrada.
Se puede observar que el campo receptivo se está expandiendo a un ritmo exponencial. El campo receptivo original es un área de 1x1 en el centro:
Correspondiente al texto, la entrada es un vector unidimensional y cada elemento es un carácter incrustado:
IDCNN genera para cada palabra de la oración de entrada es un logit que es exactamente igual a los logits de salida del modelo BiLSTM. Agregar una capa CRF, decodificar los resultados del etiquetado con el algoritmo de Viterbi y conectar la capa CRF al final del modelo de red BiLSTM o IDCNN es un método de etiquetado de secuencia muy común. BiLSTM o IDCNN calcula la probabilidad de cada etiqueta de cada palabra, la capa CRF introduce la probabilidad de transición de la secuencia y finalmente calcula la pérdida y la devuelve a la red.
Modelo BERT + capa completamente conectada: después de que el vector de codificación de BERT se asigna a la etiqueta establecida a través de la capa FC, Softmax procesa el vector de salida de un solo token. El valor de cada dimensión indica que el token. parte del discurso es una determinada parte del discurso. Con base en estos datos, se puede calcular la pérdida y entrenar el modelo. Sin embargo, inspirado en el modelo BiLSTM+CRF, se agregó una capa CRF a la capa BERT+FC y se agregaron algunas restricciones para garantizar que el resultado de la predicción final sea válido. La capa CRF puede aprender automáticamente estas restricciones al entrenar datos, lo que reduce la probabilidad de errores de predicción.
La ventaja de BiLSTM+CRF es su gran capacidad de generalización; su desventaja es que requiere una gran cantidad de muestras etiquetadas. En el caso de muestras pequeñas, el efecto será muy insatisfactorio. Para implementar un extractor de entidades más rápido y mejorar la usabilidad del sistema, se puede adoptar la idea de aprendizaje por transferencia para entrenar el modelo en función del conocimiento previo, utilizando así BERT+BiLSTM+CRF.
De manera similar, la entrada es el tokenid obtenido por el tokenizador de wordPieza, y el vector de salida se obtiene extrayendo características de texto enriquecido del modelo previamente entrenado de Bert. BiLSTM extrae el vector de salida, obtiene las características necesarias para el reconocimiento de entidades y finalmente ingresa a la capa CRF para decodificar y calcular la secuencia de anotación óptima.
Los recién llegados a la PNL pueden comunicarse entre sí, aprender unos de otros y crecer juntos~ ~