Colección de citas famosas - Mensajes de felicitación - Entrada y salida del procesamiento de información chino

Entrada y salida del procesamiento de información chino

(Fuentes de impresión): fuentes finas (no se pueden utilizar debido a muchos errores tipográficos), fuentes estándar (de acuerdo con los estándares de fuentes de la provincia de Taiwán), SimSun (fuentes simplificadas, de acuerdo con los estándares de China continental).

Tecnologías tipográficas (en pantalla e impresora): bitmap, vectorial, TrueType, OpenType y otras entradas.

Teclado: entrada de fuente: fuente Wubi, Cangjie (y simplicidad derivada de Cangjie, etc.), Quick Code, Q9, Zongheng, etc.

Entrada Pinyin: Pinyin chino, Zhu Yin, Pinyin de Hong Kong y otros pinyin dialectales.

Otros: glifos y pronunciaciones mixtas, traducidas del inglés al chino.

Este es el proyecto lingüístico más crítico. Si los caracteres chinos no pueden incorporarse a las computadoras, la automatización del trabajo bibliotecario y de información, la modernización de la imprenta y las publicaciones y la automatización de los asuntos de oficina se convertirán en palabras vacías. En los últimos 10 años, la investigación sobre el procesamiento de información de caracteres chinos ha logrado grandes avances. Se han diseñado más de 400 esquemas de codificación de caracteres chinos (ver Codificación de caracteres chinos), docenas de los cuales se han probado en computadoras o se han adoptado como métodos de entrada. Se han desarrollado cientos de sistemas y dispositivos de procesamiento de información de caracteres chinos. Estos sistemas utilizan principalmente dos tipos de teclados: un teclado grande con trazos y un teclado pequeño. Además de la entrada general, el primero generalmente también tiene la capacidad de combinar caracteres chinos con componentes; algunos de los segundos son compatibles con múltiples esquemas de codificación y algunos tienen inteligencia guiada por computadora.

Además de la investigación sobre la codificación de caracteres chinos, el procesamiento de información de caracteres chinos también ha fabricado varios equipos especiales para la entrada y salida de caracteres chinos, incluidos varios tipos de teclados de entrada de caracteres chinos, fuentes de caracteres chinos y terminales de visualización de caracteres chinos. , Terminales compatibles con gráficos de caracteres chinos e impresora de caracteres chinos. Se ha desarrollado y desarrollado con éxito un conjunto completo de sistemas de procesamiento de información de caracteres chinos (incluidos métodos de codificación de caracteres chinos, teclados universales en chino y en idiomas extranjeros, pantallas universales en chino y en idiomas extranjeros, equipos de impresión de caracteres chinos, bases de datos de caracteres chinos y software de sistemas, etc.). Se ha organizado la producción en masa. También se ha desarrollado con éxito un nuevo sistema de edición y composición tipográfica: el sistema de fotocomposición de caracteres chinos con láser por computadora. La producción tipográfica en China tiene una muy buena base. En mayo de 1985, la Oficina Nacional de Normas publicó dos normas: "Conjunto de fuentes de matriz de puntos de 15 × 16 caracteres chinos y conjunto de datos para el intercambio de información" y "Conjunto de fuentes de matriz de puntos de caracteres chinos de 24 × 24 y conjunto de datos para el intercambio de información", que proporcionado varios El diseño y promoción de equipos brindan condiciones favorables.

Para liberar a las personas del pesado trabajo de codificación, se ha incluido en la agenda la investigación sobre el reconocimiento fotoeléctrico automático de caracteres chinos. En los últimos años, cada vez más unidades se han dedicado a la investigación sobre la escritura a mano y el reconocimiento de textos impresos. El Instituto de Investigación de Datos del Ministerio de Correos y Telecomunicaciones y el Instituto de Correos y Telecomunicaciones de Beijing propusieron un método para identificar los puntos finales de los cuadrantes y las características del momento de inercia. El Instituto de Investigación de Automatización de Shenyang propuso un método de identificación de la longitud de la línea de texto. El Instituto desarrolló un sistema de identificación de tiras digitales. El 50.º Ministerio de Industria Electrónica. El Segundo Instituto de Investigación diseñó un método de mapeo de segmentación para extraer características de trazo de los caracteres chinos, y la Universidad de Tsinghua desarrolló un sistema restringido de reconocimiento de caracteres chinos escritos a mano.

En 1981, la Oficina Nacional de Normas publicó el "Conjunto básico de conjuntos de caracteres codificados en caracteres chinos para el intercambio de información" (denominado "Código de intercambio estándar de caracteres chinos"), con el propósito de facilitar el intercambio de información. entre sistemas tienen las mismas características, por lo que el diseño de varios dispositivos de entrada y salida tiene una base unificada. Este estándar se basa en la frecuencia de uso de los caracteres chinos, * * * se divide en dos niveles: 3755 caracteres de primer nivel, 3008 caracteres de segundo nivel y 6763 caracteres de segundo nivel. Para satisfacer las necesidades de un pequeño número de usuarios que utilizan más caracteres que el conjunto básico y las necesidades de la provincia de Taiwán, Hong Kong y otros lugares, se está desarrollando un conjunto auxiliar de caracteres codificados chinos para el intercambio de información. El conjunto auxiliar se dividirá en el primer conjunto auxiliar y el segundo conjunto auxiliar según la frecuencia de uso, y cada conjunto auxiliar tendrá más de 8.000 palabras. La primera combinación de computadoras y lenguaje comenzó con la traducción automática. Del 65438 al 0956 la traducción automática estuvo incluida en el plan de desarrollo del trabajo científico en nuestro país. Del 65438 al 0957 se inició oficialmente la investigación sobre la traducción automática. Se puede decir que este es el primer proyecto de procesamiento de información chino. La traducción automática ruso-chino se estudió y probó con éxito por primera vez en 1959. El resultado de la traducción fueron códigos, no caracteres chinos, porque en ese momento no había ningún dispositivo de salida de caracteres chinos. Desde finales de 1958 hasta principios de 1960, se desarrolló un conjunto de sistemas de reglas de traducción automática inglés-chino. De 1966 a 1975 las obras estuvieron paralizadas.

En los últimos años se han probado más de diez sistemas de traducción automática en inglés-chino, ruso-chino, francés-chino, japonés-chino y lenguas extranjeras (inglés, francés, alemán, ruso y japonés). Algunas traducciones al chino. Algunas traducciones de pinyin de salida.

El estudio comparativo de idiomas es la base lingüística de la traducción automática. El ajuste del orden de las palabras es la tarea central del sistema de traducción automática de chino extranjero. Para ajustar el orden de las palabras, primero debes distinguir los niveles y determinar el eje. Para ajustar el orden de las palabras, algunos sistemas también han establecido un sistema de componentes especiales, es decir, un sistema de componentes intermedio. Las preposiciones, conjunciones y signos de puntuación son puntos difíciles en la investigación de la traducción automática y su análisis correcto es la clave para resolver el problema del ajuste del orden de las palabras. Cuando el análisis estructural es difícil, se necesita el análisis semántico.

El factor más importante que afecta al desarrollo de la traducción automática es la calidad de la traducción. A juzgar por los resultados obtenidos, la calidad de la traducción automática aún está lejos del objetivo ideal. El profesor Zhou Haizhong, matemático y lingüista chino, señaló una vez en el artículo "Cincuenta años de traducción automática": Para mejorar la calidad de la traducción automática, lo primero que hay que resolver es el lenguaje en sí, no depender de varios problemas de programación; Los programas para crear un sistema de traducción automática, por supuesto, no pueden mejorar la calidad de la traducción automática. Al mismo tiempo, también señaló que antes de que los humanos hayan descubierto cómo el cerebro humano realiza un reconocimiento confuso y un juicio lógico sobre el lenguaje, es imposible que la traducción automática alcance el nivel de "fidelidad y elegancia". Con el fin de proporcionar un modelo para la indexación y recuperación, el Instituto de Información Científica y Tecnológica de China editó y publicó un "Glosario temático chino" de diez volúmenes en 1979. En la actualidad, cientos de unidades en nuestro país han llevado a cabo investigaciones experimentales sobre recuperación de información electrónica por computadora, y más de una docena de ellas han entrado en la etapa de aplicación de la IDE. Muchas unidades están estableciendo varias bases de datos de documentos en caracteres chinos y también están considerando cuestiones de redes en línea.

La cuestión clave del sistema de recuperación de información es el establecimiento del lenguaje de recuperación de información (ver recuperación de información por computadora). Además de las cuestiones generales de vocabulario y gramática, el sistema de recuperación de información chino también tiene una cuestión especial que es la segmentación de palabras, porque la recuperación se basa en palabras (palabras clave).

④Estadísticas del habla: el uso de computadoras en China para las estadísticas del habla comenzó con la traducción automática. Durante 1978, el Instituto de Lingüística y el Instituto de Tecnología Informática cooperaron para estudiar el sistema de traducción automática inglés-chino ECMT-78, compilaron un programa estadístico de clasificación y procesaron algunos materiales en idiomas extranjeros y datos en pinyin chino. En 1981, el Instituto de Idiomas de Beijing y otras unidades comenzaron a utilizar computadoras para procesar vocabulario para estadísticas de encuestas manuales. El análisis estadístico del vocabulario chino se completó en 1985 y se contaron 18.177 palabras diferentes en un corpus chino de más de 520.000 palabras. El número total de apariciones de estas palabras es 374,654 veces, siendo la palabra de una sola sílaba la que más aparece y la palabra de dos sílabas "nosotros" la que más aparece. En junio de 1986, se completó el "Diccionario de frecuencias chino moderno". En 1982, el Instituto de Aeronáutica y Astronáutica de Beijing y otras unidades comenzaron un trabajo estadístico chino a mayor escala, y las estadísticas de frecuencia de palabras y frecuencia de palabras debían realizarse en un corpus de 20 millones de palabras. Se obtuvieron algunos resultados estadísticos de frecuencia de palabras. Se contaron 8969 caracteres chinos diferentes del corpus que abarca el período 1977 ~ 1982, y se proporcionaron 26 tablas de frecuencia de uso de estos caracteres chinos según diferentes disciplinas.

Cihai

Dado que el problema de la segmentación automática de palabras aún no se ha resuelto, las estadísticas actuales de frecuencia de palabras se basan en estadísticas de encuestas manuales o segmentación manual de palabras.

Además, la Comisión de Reforma de los Caracteres Chinos y la Universidad de Wuhan utilizaron computadoras para realizar análisis estadísticos de más de 16.000 caracteres chinos en "Cihai" para estudiar las características estructurales de los caracteres chinos. Para estudiar el uso de caracteres chinos en los nombres personales, la Comisión de Reforma del Idioma Chino y la Universidad de Shanxi realizaron estadísticas sobre nombres personales basadas en materiales de encuestas de población. En muchas provincias, "Wang" es el apellido más común, mientras que "Chen" y "Lin" en la provincia de Fujian son los apellidos más comunes. La tarea de escribir pinyin se propuso ya en 1958. En 1964, se creó el "reconocedor de vocales" y se fabricaron unas 10 máquinas de reconocimiento de dígitos hablados en chino. La investigación sobre la identificación electrónica por ordenador comenzó en 1972. El Instituto de Acústica utiliza el método de coincidencia de patrones de voz para realizar el reconocimiento de una sola llamada dentro de un cierto rango, con una tasa de precisión de más del 99,5. El Instituto de Tecnología de Harbin utiliza análisis de fonemas para identificar el chino, con una tasa de precisión superior al 90%.

Algunas unidades ya han llevado a cabo investigaciones chinas integrales, que aún se encuentran en la etapa experimental.

Recientemente, el Departamento de Automatización de la Universidad de Tsinghua produjo con éxito una prueba de una computadora que habla chino. La computadora almacena datos del idioma, como las vocales chinas, y la computadora automáticamente empalma y sintetiza el habla de acuerdo con las reglas pinyin.