¿Qué es el corpus chino?
Lingüística de corpus La lingüística de corpus es una disciplina interdisciplinar que surgió en la década de 1980 que estudia la recopilación, el almacenamiento, el procesamiento y el análisis estadístico de textos en lenguaje natural, con el objetivo de basarse en la información objetiva proporcionada por grandes textos. corpus de escala Utilizar evidencia lingüística detallada para participar en la investigación lingüística y guiar el desarrollo de sistemas de procesamiento de información en lenguaje natural. Como sugiere el nombre, un corpus es un almacén de materiales lingüísticos. Hoy en día, cuando se habla de corpus, sobra decir que se refieren a textos originales almacenados en ordenadores o corpus de textos que han sido procesados y anotados con información lingüística. Ahora hay muchos corpus a gran escala en el mundo, algunos son de nivel nacional y otros son creados conjuntamente por universidades y editores de diccionarios. Además, debido al rápido desarrollo de las computadoras personales y la continua disminución del costo de los discos duros para almacenar datos, los investigadores individuales han comenzado a construir pequeños corpus adecuados para su propia investigación. El término lingüística de corpus (corpuslinguistics en inglés) tiene dos significados principales. Una es utilizar corpus para estudiar un determinado aspecto del lenguaje, es decir, "lingüística de corpus" no es el nombre de una nueva disciplina, sino que sólo refleja un nuevo método de investigación. El segundo es criticar las teorías lingüísticas actuales a partir de los hechos lingüísticos reflejados en el corpus y proponer nuevas perspectivas o teorías. Sólo en este sentido "lingüística de corpus" es el nombre de una nueva disciplina. A juzgar por la literatura existente, los estudios que pertenecen a esta última categoría son todavía muy pocos. Por tanto, en rigor, la lingüística de corpus no se puede comparar con ramas de la lingüística, como la sociolingüística, la psicolingüística, la pragmática, etc. En los últimos años, con el desarrollo de la economía de nuestro país y el aumento de la financiación de la investigación científica, se ha llevado a cabo la construcción de corpus chino. En 1999, nuestro instituto incluyó el establecimiento de un corpus chino como un proyecto importante del instituto. Actualmente, el Instituto de Idiomas está construyendo tres corpus a gran escala: un corpus de discurso improvisado en vivo, un corpus hablado de dialectos principales y un corpus de textos en chino moderno. A nivel mundial, la construcción de corpus de mi país todavía no es tan grande como la de algunos países desarrollados de Europa, especialmente el Reino Unido. Sin embargo, en términos de investigación sobre lingüística de corpus y la aplicación práctica de los corpus, nuestro país ha entrado en la vanguardia mundial. Las características generales de la investigación lingüística en el siglo XX se pueden resumir en cuatro palabras: alta abstracción. En las últimas décadas, la tendencia altamente abstracta en la investigación del lenguaje ha perdido su predominio. Esto se debe principalmente a dos factores: en primer lugar, el rápido desarrollo de la tecnología informática, especialmente la tecnología multimedia basada en el procesamiento informático, en segundo lugar, la sociolingüística, la pragmática, el análisis de conversaciones, la lingüística humana, la lingüística computacional, la investigación del diálogo humano-máquina y el reconocimiento de voz; y la síntesis ha logrado logros notables. Una amplia variedad de corpus reales que antes eran difíciles de capturar y procesar de manera efectiva ahora se pueden procesar a gran escala, de forma automática o con la cooperación hombre-máquina. Por ejemplo, las características personales de pronunciación, que antes se pensaba que no tenían nada que ver con la lingüística, ahora se han convertido en una parte importante de la detección de la fonética. Los detectives fonetistas primero construyen un corpus de características de pronunciación personal, que pueden usarse para identificar sospechosos. En resumen, la investigación del lenguaje actual está pasando gradualmente del alto nivel previo de abstracción a las actividades reales más concretas del lenguaje, incluido el movimiento de las neuronas. Por ejemplo, la neurolingüística es una disciplina que tiene como objetivo descubrir los secretos de cómo el cerebro humano procesa el lenguaje. Los corpus y la lingüística de corpus desempeñan un papel muy importante en la transición de la investigación lingüística actual desde la alta abstracción al uso real del lenguaje: en primer lugar, para proporcionar corpus reales; en segundo lugar, para proporcionar datos estadísticos, en tercer lugar, para verificar las teorías actuales; construir una nueva teoría. Se puede decir que estos son el valor práctico de los corpus y la lingüística de corpus. Se puede decir que proporcionar un corpus real es el sustento de la lexicografía. Casi todos los diccionarios de inglés populares se compilan a partir de corpus a gran escala. También se han publicado libros de gramática inglesa basados en corpus de gran escala. El establecimiento de modelos estadísticos a través de corpus a gran escala se ha convertido en el modo principal de procesamiento y procesamiento de información lingüística. La traducción automática basada en reglas, la síntesis y el reconocimiento de voz, la conversión de texto a voz, etc. anteriores eran imposibles de lograr buenos resultados sin el soporte de datos de corpus a gran escala. En términos de construcción teórica, la investigación basada en el Corpus Nacional Británico de Inglés Hablado muestra que la gramática del inglés hablado basada en corpus hablado en inglés real es muy diferente de la gramática basada en el lenguaje escrito. Incluso se puede exagerar al decir que lo son. diferentes gramáticas. En Europa, la lingüística de corpus se ha convertido en una rama principal de la lingüística. Creo que en mi país, que presta atención a la práctica de la lengua, la lingüística de corpus también recibirá cada vez más atención por parte de los investigadores y logrará resultados fructíferos.
Material de referencia: Revista de la Academia China de Ciencias Sociales
Material de referencia: /question/17310033.html?si=1