¿Qué es el chino?

Chino

Chino: como lengua materna de una nación, el chino es la rama más grande del sistema de idiomas populares en el mundo actual. Fue fundado durante el reinado del emperador Huangdi a.C. y se completó a finales del siglo XX d.C. Es un sistema lingüístico que se originó más temprano y maduró más tarde. Es un símbolo y un logro de la civilización oriental, y un importante portador de información utilizado por los humanos para nombrar y definir todo con precisión. El sistema incluye miles de palabras de uso común y decenas de miles de modismos, y es un componente indispensable e importante de una sociedad civilizada. Desde un editor de Beijing

Desde que se propuso el tema de la traducción automática a principios de la década de 1950, la historia de la investigación y el desarrollo del procesamiento del lenguaje natural (PNL) ha durado al menos 50 años. A principios de la década de 1990, los objetivos de investigación de la PNL comenzaron a pasar del procesamiento restringido del lenguaje a pequeña escala al procesamiento de texto real a gran escala. Este nuevo objetivo se incluyó oficialmente en el tema de la conferencia en la "13ª Conferencia Internacional sobre Lingüística Computacional" celebrada en Helsinki en 1990. Esos limitados sistemas de análisis del lenguaje con sólo unos pocos cientos de entradas y docenas de reglas gramaticales a menudo son llamados en broma "juguetes" por los expertos de la industria y es poco probable que tengan algún valor práctico. Los gobiernos, las empresas y los usuarios de computadoras esperan poder procesar la entrada de caracteres chinos, máquinas de dictado de voz, conversión de texto a voz (TTS), motores de búsqueda, extracción de información (IE), seguridad de la información y traducción automática (MT). sistema para texto real a gran escala.

Con base en este punto de inflexión, el autor enumeró en 1993 cuatro perspectivas de aplicación para el procesamiento de textos reales a gran escala: una nueva generación de sistemas de recuperación de información editados según las necesidades del cliente; Extracción de información, es decir, conversión de texto no estructurado en una base de datos de información estructurada, anotación automática de corpus a gran escala; Afortunadamente, hoy las cuatro direcciones han logrado resultados prácticos o comerciales.

Aunque el mundo considera el procesamiento de texto real a gran escala como un objetivo estratégico de la PNL, esto no significa que la traducción automática, el diálogo de voz, la traducción telefónica y otras aplicaciones basadas en una comprensión profunda en áreas restringidas Análisis del lenguaje natural Ya no se deben realizar investigaciones tecnológicas o teóricas. La diversidad de objetivos y misiones es señal de una comunidad académica próspera. El problema es considerar claramente dónde está el principal campo de batalla de la PNL y dónde debería desplegarse nuestra fuerza principal.

¿Es difícil hablar chino?

Cuando se trata de los principales problemas de aplicación que enfrenta el procesamiento de información chino, como la entrada de caracteres chinos y el reconocimiento de voz, que son esperados por las empresas y los usuarios de computadoras, no parece haber desacuerdo. Pero cuando la discusión profundiza en los métodos o rutas técnicas para lograr estos temas, las diferencias inmediatamente se vuelven claras. La primera opinión es que la esencia del procesamiento de información chino es la comprensión china, es decir, el análisis sintáctico-semántico de textos chinos reales. Los estudiosos que sostienen esta opinión sostienen que los métodos probabilísticos y estadísticos utilizados en el pasado en el procesamiento de la información china han llegado a su fin. Para resolver el problema del procesamiento de la información china a nivel de comprensión o lenguaje, se debe encontrar otro enfoque y. este enfoque es semántica. Se dice que esto se debe a que el chino es diferente de los idiomas occidentales. La sintaxis china es bastante flexible y el chino es esencialmente un idioma semántico.

La opinión opuesta a la opinión anterior es que la mayoría de los sistemas de aplicación mencionados anteriormente (excepto MT) en realidad se implementan sin análisis sintáctico-semántico, por lo que no hay "comprensión". Si debemos decir "comprensión", entonces será sólo la llamada "comprensión" confirmada por el experimento de Turing.

El enfoque de los argumentos antes mencionados es el método, pero los objetivos y los métodos suelen ser inseparables. Si estamos de acuerdo en que el procesamiento de texto real a gran escala es el objetivo estratégico de la PNL, entonces las teorías y métodos para lograr este objetivo también deben cambiar en consecuencia. Casualmente, la "Cuarta Conferencia Internacional sobre Teoría y Métodos de Traducción Automática (TMI-92)" celebrada en Montreal en 1992 anunció que el tema de la conferencia era "Métodos empíricos y racionalistas en traducción automática". Se trata de una admisión abierta de que, además de la tecnología tradicional de PNL basada en métodos de lingüística e inteligencia artificial (es decir, el racionalismo), existe un nuevo método basado en corpus y modelos de lenguaje estadístico (es decir, el empirismo) que está surgiendo rápidamente.

Los objetivos estratégicos de la PNL y los métodos de corpus correspondientes se obtienen desde la perspectiva amplia del ámbito académico internacional, y el procesamiento de información chino no es una excepción. La opinión de que el procesamiento de textos en chino es particularmente difícil y de que es necesario encontrar otro enfoque carece de base fáctica convincente.

Tomemos como ejemplo la recuperación de información (IR), su tarea es encontrar documentos relacionados con la consulta del usuario en una biblioteca de documentos a gran escala. Cómo representar el contenido de documentos y consultas, y cómo medir la correlación entre documentos y consultas, se han convertido en dos cuestiones básicas que la tecnología IR debe resolver. La tasa de recuperación y la tasa de precisión son los dos indicadores principales para evaluar un sistema IR. Dado que los documentos y consultas se expresan en lenguaje natural, esta tarea se puede utilizar para ilustrar que los problemas enfrentados y los métodos utilizados en los idiomas chino y occidental son en realidad muy similares. En términos generales, los sistemas IR en varios idiomas utilizan la frecuencia de palabras (tf) y la frecuencia inversa de documentos (idf) en documentos y consultas para representar el contenido de documentos y consultas, por lo que es esencialmente un método estadístico.