Introducción técnica

? Con la aplicación generalizada de las computadoras en los campos de las noticias y la publicación de libros, han surgido diversas publicaciones electrónicas. Especialmente con el desarrollo de la tecnología de Internet, existen innumerables revistas electrónicas, páginas comerciales y plataformas de redes sociales en línea. Sin embargo, ya sean periódicos, libros de editoriales o información electrónica diversa en Internet, generalmente ingresan a la computadora mediante la entrada del teclado, el reconocimiento OCR o el reconocimiento de voz. Estos métodos de entrada no pueden garantizar la exactitud de la información de entrada bajo el nivel técnico actual. La revisión de textos se ha convertido en una parte importante de la revisión previa a la publicación de periódicos, publicaciones periódicas y libros, lo que afecta directamente la calidad de las publicaciones. Con el rápido desarrollo del volumen de negocios y la electrónica en la industria editorial en los últimos años, la carga de trabajo de revisión ha aumentado considerablemente, lo que hace que el método tradicional de revisión manual se convierta cada vez más en el cuello de botella de la automatización de la impresión y la publicación, y resuelve el problema de la precisión de la información de entrada. se ha convertido en una necesidad urgente.

? Por lo tanto, es de gran importancia utilizar computadoras para corregir textos en lugar de personas. En comparación con la revisión manual, la revisión por computadora tiene ventajas obvias, principalmente en los siguientes aspectos:

? (1) La revisión por computadora es rápida, eficiente y sin fatiga. La corrección en sí misma es un trabajo mecánico. Los correctores se cansan mucho cuando se enfrentan durante mucho tiempo a una gran cantidad de caracteres chinos, letras, signos de puntuación y fórmulas diversas. A menudo sufren molestias mentales y su capacidad de atención y estabilidad caen en picado. Si no tienen un buen profesionalismo, es posible que incluso escaneen apresuradamente y los errores se ocultarán inconscientemente, afectando la calidad de la edición del libro. No hay problema de fatiga e irritabilidad en la revisión por computadora, y la velocidad y la eficiencia están fuera del alcance de la revisión manual.

? (2) Las computadoras no tienen problemas con la actitud laboral, las emociones psicológicas, etc. La revisión manual afectará la actitud laboral o las emociones psicológicas de los revisores debido a los diferentes entornos de trabajo y paquetes salariales de diferentes empleados, afectando así la calidad de la revisión de textos. Las computadoras no tienen este problema.

? (3) Los tesauros y los tesauros del software de revisión por computadora son muy grandes, más allá del alcance de conocimientos de los correctores manuales comunes. Además, al revisar manuscritos de diferentes especialidades, puede vincular diferentes tesauros. Por lo tanto, hay errores en los caracteres, palabras y gramática chinos, hay errores en la colocación de palabras que no se ajustan a la gramática y semántica chinas, hay errores en la colocación de los nombres y cargos de los líderes, hay irregularidades en el uso de unidades de medida científicas, hay un uso incorrecto de pares de signos de puntuación y hay algunos números incorrectos. Además, para aquellos errores que la revisión manual pasa fácilmente por alto, como "sprint" y "sprint" (error), "competición" e "intención" (error), "shock" y "shock", "spirit" y "generosidad", "gobernanza" y "razonamiento" (error),

La composición del sistema inteligente de revisión de textos chinos:

? El sistema inteligente de revisión de textos en chino incluye principalmente cuatro módulos principales: módulo de adquisición de conocimientos, módulo de preprocesamiento y segmentación de palabras, módulo de detección automática de errores y módulo de corrección automática de errores. También incluye bases de conocimientos como base de conocimientos de preprocesamiento, base de conocimientos de detección de errores y corrección de errores. base de conocimientos. La relación entre cada módulo se muestra en la Figura 1:

? (1) Módulo de adquisición de conocimientos: obtenga conocimientos estadísticos lingüísticos a partir de corpus a gran escala (incluidos corpus y modismos originales) y establezca modelos y algoritmos de lenguaje para la búsqueda automática de texto y la corrección de errores. La base de conocimientos consta de dos partes: base de conocimientos de detección de errores y base de conocimientos de corrección de errores. La base de conocimientos de detección de errores se utiliza principalmente para modelos y algoritmos de detección de errores de texto, incluida la tabla de vectores de frecuencia de palabras, la tabla de tasas de coocurrencia de palabras binarias y trigramas obtenidas del corpus original, la tabla de vectores de frecuencia de palabras, la tabla de coocurrencia binaria de palabras, parte -Suma binaria del discurso Tabla de coocurrencia ternaria de parte del discurso, categoría semántica binaria y tabla de coocurrencia de categorías semánticas, así como base de conocimientos sintácticos y base de reglas políticas. La base de conocimiento de errores se utiliza principalmente para brindar sugerencias de errores en marcas rojas, incluidos diccionarios que se confunden fácilmente, diccionarios de palabras en clave similares, diccionarios bidireccionales basados ​​en palabras, diccionarios clave de palabras en inglés y reglas de coincidencia de probabilidad. Al clasificar las sugerencias de corrección de errores, también debemos utilizar el conocimiento estadístico de las conexiones de palabras (obtenidas a partir de datos de co-ocurrencia) y las conexiones de partes del discurso en la base de conocimientos de detección de errores.

? Esta parte se utiliza para obtener conocimiento estadístico del corpus independientemente del sistema y no está estrechamente relacionada con las otras tres partes del programa.

? (2) Módulo de preprocesamiento y segmentación de palabras: el módulo de preprocesamiento y segmentación de palabras se utiliza principalmente para segmentar el texto de revisión. Actualmente, nuestro sistema reconoce formato de texto plano (DXT) y formato de texto enriquecido (RF). Para archivos de texto en otros formatos, como Word, PDF, WPS y Huaguang, es necesario convertir el formato y eliminar los símbolos de control para generar un formato de texto sin formato. La segmentación de palabras es la base de la mayoría de los sistemas de procesamiento del lenguaje espontáneo y este sistema no es una excepción.

Implementamos el módulo de segmentación de palabras de máxima coincidencia, que tiene la función de identificar nombres de personas y lugares al mismo tiempo. Debido a la estructura del complemento, el sistema se puede utilizar para experimentos sobre modelos y algoritmos de segmentación de palabras. También puede conectar fácilmente programas de segmentación de palabras existentes con buenos resultados a nuestro sistema para verificar y modificar modelos.

? (3) Módulo de detección automática de errores: este módulo implementa principalmente varios modelos y algoritmos de detección de errores. La función principal de este módulo es detectar errores de texto en chino, incluidos errores a nivel de palabra, nivel de sintaxis, nivel semántico y nivel político. Para los errores a nivel de palabras, utilizamos principalmente una combinación de reglas y estadísticas basadas en las ideas de clasificación de "errores que no son de varias palabras" y "errores verdaderos de varias palabras" en los textos chinos. Para errores sintácticos, basados ​​en reglas sintácticas y diccionarios gramaticales, se utiliza un método que combina diccionarios gramaticales y estadísticas para la detección de errores; para errores de nivel semántico, basados ​​en la teoría del semema, se utiliza una combinación de base de conocimientos de colocación semántica y teoría de la evidencia. se utiliza para detectar errores; para errores políticos, según la base de reglas políticas, se utiliza el método de razonamiento del conocimiento para detectar errores. El resultado de esta parte es un texto marcado con la cadena de error y los resultados se marcan con el subproceso rojo y se muestran en la pantalla.

? (4) Módulo de corrección automática de errores: este módulo implementa principalmente el algoritmo de generación y el algoritmo de clasificación de sugerencias de corrección de errores. El algoritmo para generar sugerencias de corrección de errores en este proyecto se basa en las causas de los errores. Para errores de disposición de sonido, en una ventana deslizante de un tamaño específico, se utiliza un método de coincidencia pinyin bidireccional para localizar el error y generar sugerencias de corrección de errores para los errores de Wubi, según reglas de coincidencia de probabilidad específicas, se utiliza el cálculo del código de similitud para; resolver la ubicación del error y las sugerencias de corrección de errores generan problemas. Para clasificar las sugerencias de corrección de errores, este proyecto construyó un modelo de clasificación de sugerencias de corrección de errores basado en la teoría de la yuxtaposición semántica y la información contextual. Al integrar información contextual, corpus de gran escala e información de codificación, se determina el valor de prioridad de cada sugerencia de corrección de errores. Después de determinar el valor de prioridad, las sugerencias de corrección de errores se clasifican mediante un algoritmo de clasificación rápida o de clasificación de burbujas.

? El almacén tridimensional inteligente ha pasado por dos etapas de desarrollo: el almacén tridimensional y el almacén tridimensional automatizado. Su proceso de desarrollo se muestra en la siguiente figura:

? El sistema de almacén tridimensional inteligente integra gestión de información informática, tecnología de control informático e ingeniería mecánica para resolver problemas como la baja utilización del almacenamiento, el gran espacio y la baja eficiencia logística en el campo de la logística. Tiene amplias perspectivas de aplicación en la fabricación de piezas mecánicas, medicina, tabaco, bienes de consumo de rápido movimiento, comercio electrónico y otros campos. Gracias al apoyo de la cooperación entre escuelas y empresas y proyectos de investigación científica relacionados, este proyecto llevó a cabo una investigación en profundidad y a largo plazo sobre las cuestiones técnicas clave de WMS, WCS y equipos logísticos en el sistema de almacén tridimensional inteligente.

? A través de una investigación continua y en profundidad, hemos determinado la arquitectura de tres capas del software de almacén tridimensional inteligente, como se muestra en la siguiente figura:

? El sistema de gestión WMS es el núcleo del sistema de gestión de automatización de almacenes e incluye una serie de funciones de gestión como gestión de información de almacén, gestión de inventario, gestión de almacenamiento e informes. La estructura del módulo funcional del sistema de gestión WMS se muestra en la siguiente figura:

? El sistema de despacho es responsable de las instrucciones de despacho de diversos equipos de hardware, como apiladores, transportadores y montacargas. El diagrama de estructura del sistema de programación es el siguiente: