Resumen del PCFG [Análisis de constancia estadística] [14.4]
El PCFG basado en probabilidad se utiliza para resolver problemas de ambigüedad en el análisis sintáctico. Al obtener la probabilidad de expansión de los símbolos no terminales, el PCFG básico no considera la posición del símbolo no terminal en toda la oración ni el impacto de la palabra misma en el análisis sintáctico, lo que da como resultado probabilidades inexactas, por lo que el PCFG original. necesita ser potenciado. Esto se describe en el artículo original:
Supuesto de independencia deficiente: las reglas CFG imponen probabilísticamente un supuesto de independencia, lo que conduce a un modelado deficiente de las dependencias estructurales en los árboles de análisis.
Falta de condiciones léxicas: las reglas CFG no modelan los hechos sintácticos de palabras específicas, lo que genera problemas como ambigüedad en la subcategorización, unión preposicional y ambigüedad en la estructura paralela.
Para detalles más específicos, consulte el texto original.
14.5
Esta sección analiza dos formas de mejorar el PCFG básico. Uno es tener en cuenta los nodos parantes no terminales y el otro es tener en cuenta los nodos parantes preterminales (nodos parte del habla), lo que aumenta los parámetros de todo el modelo, haciendo que el conjunto de entrenamiento existente más pequeños y propensos a ocurrir sobreajuste. Por lo tanto, se menciona que al elegir un cierto grado de división y fusión, se puede encontrar el conjunto de entrenamiento con la mayor probabilidad. Por cierto, el artículo menciona que este método puede lograr una buena precisión de análisis, pero existe otro modelo de análisis, que es el contenido posterior a 14.6.
14.6
Desde el principio mencioné otro modelo, que tiene una filosofía diferente al modelo anterior. En el modelo anterior, la división no terminal se transforma en nodos más refinados al considerar los nodos principales. Aquí consideramos cómo tener en cuenta la información léxica. Hay una oración en este artículo que describe cómo pensar en este enfoque:
Una forma natural de pensar en una gramática de lexicalización es como una anotación principal, es decir, como una gramática simple libre de contexto, por Hay muchas copias de esta regla, una para cada posible palabra principal/etiqueta principal de cada componente.
Significa mejorar cada nodo libre de contexto y agregar la palabra central y la información de la parte gramatical correspondiente a la palabra central, como se muestra en la siguiente figura:
Pero este método trae un problema, porque los nodos básicos no terminales y los nodos preterminales se dividen en nodos muy finos según el vocabulario, lo que da como resultado un fuerte aumento en las características. Según el corpus existente, la frecuencia de palabras calculada utilizando la siguiente fórmula de estimación de máxima verosimilitud es casi igual a 0, lo cual es demasiado escaso.
Por lo que es necesario hacer algunas suposiciones sobre esta fórmula, que es el método de Collins.
14 . 6 . 1 La primera suposición del método Collins es la siguiente:
La primera intuición del analizador Collins es que el lado derecho de cada CFG (interno). La regla consta de un encabezado no terminal, el símbolo no terminal a la izquierda del encabezado y el símbolo no terminal a la derecha del encabezado. De manera abstracta, pensamos en estas reglas de la siguiente manera:
Es decir, supongamos que el lado derecho de cada regla es otro encabezado no terminal. De acuerdo con las reglas de cálculo de head, debe haber un símbolo no terminal con la misma palabra central y parte gramatical correspondiente que parant. Este símbolo no terminal se considera el símbolo no terminal principal en el lado derecho. Luego, la ocurrencia de la regla completa se divide en varios eventos independientes, es decir, dada la probabilidad de que aparezcan el no terminal principal, el no terminal izquierdo y el no terminal derecho, respectivamente. Dado que se supone que estos eventos son independientes, se pueden multiplicar (además de detenerse en las posiciones de los bordes).
Por ejemplo, VBD | VP, dumped) en la Figura 14.25 anterior es el no terminal del cerebro derecho. En 14.26, primero se calcula la probabilidad de (VBD | VP, Dumbed), y luego el izquierdo y el otro. Los no terminales derechos basados en el no terminal principal se calculan por separado.
En resumen, la esencia del método Collins es asumir que el evento correspondiente a la fórmula 14.25 está compuesto por varios eventos independientes, escribir la fórmula 14.25 como la forma producto de estos eventos independientes, es decir, 14.26, y luego calcule los términos del producto correspondientes respectivamente. Debido a que la escasez del término del producto se reduce considerablemente, la probabilidad general se puede obtener fácilmente.
14.7 ?Otro enfoque es el CCG basado en probabilidades.
El método CCG tiene una gran cantidad de categorías y reglas y vocabulario correspondientes, que pueden producir múltiples análisis diferentes para la misma oración. En el artículo se da un ejemplo. El siguiente plan se puede interpretar de muchas maneras.
El artículo menciona que el algoritmo PCYK se puede utilizar porque las reglas de ccg solo corresponden a operaciones unarias y binarias. Sin embargo, debido a las características del propio CCG (una gran cantidad de categorías y léxico), existe. Es un problema de demasiadas constelaciones. Para resolver este problema, se utiliza un método llamado supermarcado, que puede evaluar y encontrar con precisión los ingredientes más probables.
14.7.3 presenta el método de usar MEMM para crear súper etiquetas. Finalmente, el superetiquetado necesita obtener una tabla similar a la siguiente, que enumere la probabilidad de cada palabra en la oración (United Airlines sirviendo a Denver), ordenada en orden descendente. Tenga en cuenta que cuando usamos MEMM, necesitamos usar la información de etiqueta de las palabras anteriores. El resultado de cada paso de cálculo de MEMM es una serie de etiquetas con probabilidad. Entonces, mirándolo paso a paso, calculando de izquierda a derecha, ¿qué secuencia de etiquetas es más probable que se seleccione? Este resultado se puede lograr mediante el algoritmo de Viterbi, pero al final el algoritmo de Viterbi solo puede obtener una secuencia de etiquetas óptima. Necesitamos obtener todas las etiquetas y probabilidades de cada palabra en la siguiente tabla. Por lo tanto, en este artículo se menciona que se pueden utilizar algoritmos hacia adelante y hacia atrás para calcular. Recuerde el algoritmo directo, que en realidad calcula la probabilidad de que cada etiqueta en cada paso corresponda a todas las etiquetas del paso anterior, es decir, la probabilidad de que la palabra actual sea la etiqueta actual después de que aparezca la palabra anterior. Aquí, consideramos la probabilidad de que la palabra actual aparezca con la etiqueta actual después de que aparezca esta oración. Por lo tanto, debemos tener en cuenta la probabilidad de la etiqueta actual de la palabra actual calculada al revés y, finalmente, obtener el producto de las dos probabilidades.
14.7.4,
Después de obtener la tabla de supertagger, utilice el algoritmo A* para obtener los resultados del análisis. La lista de algoritmos que figura en la Figura 14.11 mencionada en el artículo no es muy clara, pero la Figura 14.12 describe mejor todo el proceso de cálculo de A* y está disponible como referencia. Revisaremos el algoritmo A* más adelante y luego volveremos al algoritmo 14.5438+01.