Colección de citas famosas - Libros antiguos - Ingeniería lingüística de la lingüística rusa

Ingeniería lingüística de la lingüística rusa

Los resultados de la investigación de la lingüística de la ingeniería se han utilizado ampliamente en los campos del diálogo entre personas y computadoras y el procesamiento de información en lenguaje natural, incluyendo principalmente la traducción automática, la recuperación automática de información, la identificación del idioma, la enseñanza de programas y la enseñanza automática. sistemas de disposición de libros y periódicos, sistemas de control automático, redes de comunicación internacionales y otros campos. (Ver: Wang Dechun, 1997: 411-415)

Como se mencionó anteriormente, uno de los objetivos de investigación más prácticos de la ingeniería lingüística rusa es diseñar y construir autómatas lingüísticos. Aquí discutiremos principalmente el lenguaje teórico y. Cuestiones técnicas relacionadas con la construcción de autómatas.

1. Principios semióticos de la información y estrategias lingüísticas para la construcción de autómatas lingüísticos

(1) Principios semióticos de la información para la construcción de autómatas lingüísticos

Piotrovsky y otros entienden los autómatas lingüísticos como el modelo operativo real de las actividades de pensamiento verbal humano. Es una síntesis de medios informáticos y medios de programa. Sus componentes principales son: 1) una computadora especializada muy potente o una computadora de uso general; 2) una base de conocimientos lingüísticos que cubre un amplio vocabulario y la información gramatical necesaria (лингвистическаяинформационнаябазаданных, ЛИБД); обеспе- чение, ЛПО); 4) Sistemas de aplicación de soporte y medios de servicio, ЛИБД y ЛПО procedimientos operativos. (Пиотровскийидр., 1993: 125)

Piotrovsky y otros creen que explorar y establecer un cierto esquema semiótico para la generación, transformación y percepción del texto es la base teórica para la formación del concepto de autómata lingüístico, que. También es la piedra angular de la construcción del módulo de lingüística de ingeniería. Los resultados de la investigación en los campos de la lingüística, la psicolingüística y las ciencias cognitivas proporcionan el apoyo teórico necesario para los modelos de comunicación humano-computadora. A través de una investigación en profundidad y un análisis exhaustivo de las teorías teóricas existentes, los académicos rusos propusieron un modelo de símbolo extendido del lenguaje saussureano, que se convirtió en un esquema de símbolo psicolingüístico para construir autómatas del lenguaje. (Пиотровский, 1984: 22-23; Шингарева, 1987: 6-29) Este esquema puede describir el proceso de formación del discurso: partiendo del significado explícito (Dn1) que refleja la realidad objetiva, pasando por el nivel del sujeto referente, hasta el codificación léxico-gramatical del discurso y codificación ortográfico-fonológica. El desarrollo del discurso se lleva a cabo bajo el control del operador comunicativo-pragmático (коммуникативно-прагматическийоператор, КПО), (Piotrowskii, 1990: 108). Este operador asegura el léxico (тезаурус, θ) y la capacidad lingüística (лингви стическаякомпет). енция, ЛК) componentes, y ajusta automáticamente la conversión de nivel en el proceso de generación del discurso.

En cuanto a la investigación sobre percepción y decodificación del discurso, el grupo de investigación СтР se basa principalmente en los dos esquemas siguientes:

Según el primer esquema de hipótesis, el sonido o decodificación recibido por el usuario es La señal visual (imagen) se compara con el patrón sensorial (fonético o textual) colocado en el componente ЛК. Si esta comparación produce resultados positivos, debe incluir un análisis léxico-gramatical superficial de las oraciones y sus componentes: frases y usos de palabras. Posteriormente, se realiza un análisis profundo del tema-rema a nivel del significado referente, que se basa principalmente en información semántico-sintáctica obtenida de diccionarios enciclopédicos, ЛК y análisis contextual. Finalmente, se da una explicación general de la información del discurso en cada nivel en el nivel de referencia explícita (денотат). Las operaciones antes mencionadas derivadas de la pragmática personal, las presuposiciones y la precomprensión del contexto pueden permitir a los usuarios obtener la información explícita del discurso (Dn2). La ecuación Dn1 = Dn2 muestra que la información recibida por el usuario es completamente consistente con la intención original del remitente del mensaje. En el caso de Dn1 ≠ Dn2, la decodificación de la información del discurso por parte del usuario es inconsistente con el significado dado por el remitente del mensaje. .

Según el segundo esquema de hipótesis, el usuario ya ha iniciado la búsqueda de Dn2 durante la decodificación perceptual y léxico-gramatical de la información del discurso. Al comienzo de la búsqueda, pasan a primer plano los signos clave de la oración (esquemas individuales, frases, esquemas semántico-sintácticos simples). La búsqueda en sí la lleva a cabo el usuario sobre la base de sus intenciones y expectativas pragmáticas personales, incluidas referencias y presuposiciones en el entorno de referencia, que posteriormente forman suposiciones sobre el significado del enunciado recibido. A continuación, con base en las intenciones y presuposiciones pragmáticas del usuario, se debe realizar un análisis léxico-gramatical si es necesario, y la información obtenida se compara con la información del marco semántico-sintáctico registrado en θ y ЛК, con el fin de seleccionar las palabras que corresponden a la referencia explícita del discurso (es decir, imagen) la hipótesis más adecuada. Todas las operaciones de reconocimiento de texto se implementan bajo el control de КПО.

(2) Estrategias lingüísticas para construir autómatas lingüísticos

Existen dos estrategias lingüísticas principales para construir autómatas lingüísticos:

La primera estrategia se refiere a la elección entre prioridad léxica o prioridad gramatical (лексическаяилиграмматическаяприоритетность) al desarrollar un algoritmo general para autómatas del lenguaje. Al resolver este problema, el grupo de investigación СтР se basa en las dos consideraciones siguientes: 1) utilizar el vocabulario como índice de información para la investigación de textos, porque el vocabulario contiene la mayor parte de la información contenida en el texto, 2) y debilitar el aprendizaje automático de los individuales; unidades de vocabulario Contrariamente a la práctica habitual de analizar y sintetizar el papel del análisis sintáctico de las oraciones de entrada y generar la estructura sintáctica de las oraciones de salida, la construcción de un lenguaje autómata no comienza con el desarrollo de algoritmos gramaticales, sino con la construcción del vocabulario de las autómata del lenguaje y la compilación de vocabulario de texto es lo primero.

La segunda estrategia implica elegir entre el modelo deductivo estricto de Chomsky y la gramática funcional probabilística del habla. Los patrones deductivos siguen siendo influyentes en las gramáticas formales utilizadas en los sistemas modernos de traducción automática, como la gramática gubernamental y vinculante (Chomsky, 1982), la gramática de árboles contiguos (Joshi, 1987) y la gramática de estructura de frases (GPSG) (Ristad, 1990). ). De hecho, las ideas básicas de la gramática funcional probabilística del habla se reflejaron en los escritos de Greenberg (Гринберг, 1970), Filmer (Филлмор, 1981) y Halliday (Halliday, 1984) ya en la década de 1960.

En resumen, para simular el proceso de análisis y síntesis de texto en un autómata lingüístico, la estrategia lingüística adoptada por el grupo de investigación СтР se orienta hacia el lenguaje funcional basado en el modelo de valencia (marco) de situaciones típicas. Aprendizaje, patrones probabilísticos para la resolución de ambigüedades y reconocimiento de formas de texto que significa imágenes. (Пиотровскийидр., 1993: 127)

2. La estructura básica y el esquema de representación de los autómatas lingüísticos

(1) Los principios arquitectónicos de los autómatas lingüísticos

En Para describir la arquitectura de los autómatas lingüísticos, es necesario formular dos principios rectores sujetos a las estrategias lingüísticas anteriores:

1) Establecer una organización jerárquica abierta (a nivel de módulo), que por un lado observe autómatas lingüísticos La posibilidad de sumar o restar módulos, por otro lado, muestra la relevancia de cada módulo para un nivel específico de generación y percepción del discurso;

2) En todo el proceso de preparación de la organización automática del lenguaje, operación y mejora, seres humanos Interacción continua con las máquinas. Esto significa que al compilar diccionarios y gramáticas automáticas y dotar a los autómatas lingüísticos de capacidades de autoaprendizaje, no sólo se debe aprovechar el conocimiento "humano" sobre la tradición del lenguaje natural, sino también una investigación exhaustiva de textos reales a gran escala en diversos géneros. resultado requerido. Cada biblioteca de texto virtual (корпусвиртуальныхтекстов, КВТ) debe considerarse como una base de conocimientos sobre la cual es posible establecer un cierto estilo de gramática funcional de la máquina.

(2) Esquema de representación de autómatas lingüísticos

El autómata lingüístico es un sistema complejo y su representación multidimensional se basa en hardware de computadora (hardware), software de servicio del sistema (software ) ) y componentes de aseguramiento de programas lingüísticos (lingware) basados ​​en modelos y esquemas. A continuación se presentan dos esquemas utilizados para representar autómatas lingüísticos: esquemas de estructura-función y esquemas de decisión de jurisdicción.

1. Esquema estructura-función (структурно-функциональнаясхема)

Este esquema es un sistema jerárquico que contiene los siguientes cuatro niveles:

1) El nivel inferior se refiere a la base de datos de información lingüística, que funciona de manera similar a la biblioteca de vocabulario y los componentes de capacidad lingüística en el pensamiento verbal humano, incluidos manuales de vocabulario de entrada y salida, listas de morfemas y otras listas de elementos gramaticales.

2) La capa intermedia cubre una gran cantidad de módulos funcionales, cada uno de los cuales completa tareas lingüísticas específicas y simula una determinada función de las actividades de pensamiento verbal humano.

Estos módulos funcionales se dividen a su vez en los dos subconjuntos siguientes:

El primer subconjunto incluye 10 módulos analíticos (анализирующиемодули):

—Módulo de decodificación de texto (d ),

—módulo de revisión de texto (c),

—módulo de análisis léxico (lk) de unidades de vocabulario clave en el texto,

—análisis léxico del texto módulo (l) para todas las unidades léxicas del texto,

—módulo de análisis léxico automático (q) para el uso léxico en el texto,

—análisis léxico-morfológico de unidades léxicas clave en el módulo de Análisis de texto (λk),

—módulo de análisis léxico-léxico (λ) de todas las unidades léxicas del texto,

—módulo de análisis de estructura superficial (g) del texto,

—El módulo de análisis de estructura profunda (tema-rema) del texto (s1),

—El módulo de análisis semántico-pragmático del texto (s2).

El segundo subconjunto incluye 8 módulos completos (синтезирующиемодули):

—módulo de representación (codificación) de texto o fonética (k),

—módulo de corrección de textos ( c),

—Módulo de síntesis de vocabulario (l'),

—Módulo de síntesis léxica automática (q'),

—Módulo de síntesis de vocabulario léxico-léxico (λ') de uso y frases,

—Módulo de síntesis de estructura superficial (g') del texto de salida,

—Tema-rema del texto de salida Módulo de síntesis estructural (s1 '),

—Módulo de síntesis semántico-pragmática de texto (s2').

3) La capa superior está compuesta por un complejo integrado de programa-función (F), que procesa los módulos funcionales de la capa intermedia y la información de vocabulario (L) y gramática (G) en la información del lenguaje. base de datos.

Los estudiosos rusos admiten que aún no han logrado construir un autómata lingüístico completo que incluya todos los módulos anteriores, pero sí han logrado construir pequeños autómatas lingüísticos que pueden utilizarse para la revisión y edición preliminar de textos. vocabulario- Análisis léxico, traducción "aproximada" de texto, etc.

4) El alto nivel se refleja en la forma de interacción persona-computadora, y esta interacción puede considerarse condicionalmente como parcialmente similar a la motivación y КПО en el esquema de pensamiento verbal humano.

2. Esquema de decisión de jurisdicción (схемауправленияирешения)

Al igual que las actividades de pensamiento verbal humano, cualquier sistema automático de procesamiento de texto a menudo se asocia con operaciones de reconocimiento bajo incertidumbre. Esta incertidumbre está contenida en los diccionarios de las máquinas y en las gramáticas de las máquinas en forma de opciones múltiples, para las cuales un autómata lingüístico con características de inteligencia artificial debería tomar la decisión correcta.

El esquema de toma de decisiones de los autómatas del lenguaje se puede dividir en tres niveles:

1) La capa autoorganizada generalmente selecciona la estrategia óptima para completar la tarea general a través de la interacción persona-computadora y determina las estrategias secundarias necesarias. -sistemas basados ​​en esta estrategia. Sistema y módulos funcionales;

2) La capa de adaptación del procesamiento de textos de autómatas del lenguaje resuelve principalmente problemas lingüísticos, y su función es eliminar factores inciertos como la ambigüedad de las unidades léxicas, morfológicas. formas y patrones sintácticos en el texto, para compensar la falta de conocimiento lingüístico y conocimiento enciclopédico en la base de datos de información del idioma;

3) La capa de selección de soluciones de la tarea determinada formula diferentes planes de desarrollo para específicos. proyectos de ingeniería del lenguaje, incluyendo rutas técnicas, algoritmos específicos, pasos de implementación y muchos otros aspectos.

Sección 5: Los dos principales centros académicos de la lingüística de la ingeniería rusa y sus representantes y principales logros

No es difícil encontrar a través de la inspección de la historia académica de la materia que la investigación sobre lingüística de ingeniería rusa Ha pasado por casi medio siglo de desarrollo y ha logrado brillantes logros académicos, formando dos importantes centros académicos: el Centro de San Petersburgo y el Centro de Moscú. Cabe señalar que la lingüística de la ingeniería rusa no sólo tiene sus propias características disciplinarias distintivas, sino que también es inseparable del contexto general del desarrollo académico mundial. Los primeros experimentos de traducción automática y las teorías de la lingüística formal occidental tuvieron un impacto importante en la investigación sobre la lingüística aplicada en Rusia, en la ex Unión Soviética y después de su desintegración.

1. Centro Académico de San Petersburgo

El representante del Centro Académico de San Petersburgo recomienda en primer lugar a Piotrovsky. Es bien merecido como el "fundador de la lingüística computacional en la antigua Unión Soviética". Unión". El grupo de investigación СтР dirigido por él se ha convertido en un grupo académico internacional y ha escrito extensamente. Ha logrado logros notables en el campo de la investigación teórica básica y el desarrollo de aplicaciones de la lingüística de ingeniería, que han atraído la atención de la comunidad académica internacional, especialmente en. la construcción de la disciplina de la ingeniería lingüística. Su monografía (Пиотровский, 1979) todavía figura como referencia docente para los estudiantes de lengua china en muchas universidades rusas. Sus ideas académicas se han utilizado con éxito en el desarrollo de software de la famosa empresa rusa de traducción automática. ПРОМТ. En la introducción de este libro, hemos obtenido una comprensión general de los principales logros de la escuela académica de San Petersburgo a través de un esquema general de la materia de ingeniería lingüística y una breve descripción de los principios de diseño y la arquitectura general de los autómatas lingüísticos. Habrá una introducción y revisión más detalladas en el Capítulo 1 y la Sección 1 del Capítulo 2 de este libro, por lo que no entraré en detalles aquí.

En el centro académico de San Petersburgo, otro grupo de investigación digno de atención es la Sección de Investigación y Enseñanza de Lingüística Matemática de la Universidad de San Petersburgo, cuyo líder es Gerd (А.С.Герд). A lo largo de los años, los miembros de este grupo de investigación han logrado resultados fructíferos en muchas subdisciplinas de la lingüística aplicada, que se presentarán por separado en los capítulos correspondientes de este libro. Tuzov (В.А.Тузов), un académico con formación matemática en la Universidad de San Petersburgo, ha realizado una fructífera investigación sobre semántica computacional y diccionarios semánticos de máquinas.

2. Centro Académico de Moscú

El representante más influyente del Centro Académico de Moscú es Melichuk (И.А.Мельчук), quien comenzó a defender en la década de 1960 la teoría del modelo lingüístico de "Significado y texto" establecido se considera la primera teoría lingüística cibernética en la ex Unión Soviética. Su propósito práctico es establecer un procesador de lenguaje bidireccional entre significado y texto. Más tarde, Melichuk se mudó a Canadá y trabajó en el Departamento de Traducción y Lingüística de la Universidad de Montreal. Estableció el "Observatorio de Lingüística del Texto Significativo" y se dedicó a la investigación teórica y las aplicaciones prácticas. Él mismo fue elogiado. la comunidad lingüística occidental como "una persona notable". (Bolshakov, Gelbukh, 2000) En los últimos 40 años, en Rusia, Canadá, España, Francia, Alemania, Japón, Corea del Sur y otros países, un grupo de investigadores con ideas afines han diseñado sistemas de traducción automática basados ​​en este modelo teórico. o intentó utilizar El trabajo de compilar diccionarios bilingües en el idioma nativo como idioma de destino ha logrado muchos resultados prácticos y su influencia en los círculos internacionales de lingüística computacional y lingüística teórica continúa expandiéndose. La segunda sección del capítulo 2 de este libro proporcionará una revisión detallada del pensamiento académico de Melichuk.

La Escuela de Semántica de Moscú, representada por Aplishyan, un académico de la Academia de Ciencias de Rusia, se adhiere a las ideas centrales de la teoría del modelo lingüístico "Significado y texto" y gradualmente se convierte en un modelo de Lenguaje integrador de la teoría lexicográfica descriptiva y sistemática. (Апресян, 1995) El académico Aplysian dirigió a sus colegas del Laboratorio de Lingüística Computacional del Instituto de Problemas de Transmisión de Información de la Academia de Ciencias de Rusia para posicionar la investigación básica en el desarrollo de un modelo de lenguaje formal totalmente eficaz basado en el método "Meaning & Ucirc; Teoría del texto. Presidió el desarrollo de la serie ЭТАП de sistemas experimentales de traducción automática.