Bert añade bilstm y crf como significado de ner
Agregar crf: equivalente a capturar explícitamente dependencias entre etiquetas.
Pero ¿por qué mucha gente dice que bert y bert crf tienen efectos similares? Creo que el espacio semántico que BERT puede expresar es lo suficientemente rico como para capturar las dependencias entre etiquetas. Algunas personas dicen que bert crf es aún mejor. Creo que puede ser la relación entre las características relevantes del conjunto de datos, o el ajuste de parámetros, etc.
1.BERT BiLSTM CRF gt; BiLSTM CRF
La incrustación de palabras con una capa más de inicialización BERT es definitivamente mejor que la inicialización aleatoria. No explicaré esto más.
2.BERT BiLSTM CRF gt; BERT Universal Report Format
En primer lugar, BERT utiliza un transformador, que se basa en la autoatención, es decir, la información de posición se debilita durante el proceso. proceso de cálculo (solo el uso de la incrustación de posición le dice al modelo la información de posición del token de entrada), y la información de posición es muy necesaria en la tarea de etiquetado de secuencia. Incluso la información de dirección es necesaria (recuerdo que se mencionó en TENER, un artículo de NER publicado por la Universidad de Fudan el año pasado. Si está interesado, puede buscar TENER directamente en Zhihu), por lo que debemos usar LSTM para obtener la dependencia del secuencia de observación y luego use CRF Obtenga la relación de la secuencia de estados y obtenga la respuesta. Si se usa CRF directamente, la capacidad de aprendizaje del modelo para la secuencia de observación disminuirá, lo que dará como resultado resultados deficientes. (Opinión puramente personal)