¿Cómo convertir artículos con imágenes escaneadas en documentos de Word?
OCR es la abreviatura de Reconocimiento Óptico de Caracteres en inglés. Traducir al chino significa utilizar tecnología óptica para reconocer texto, lo cual es un aspecto importante de la investigación y aplicación de la tecnología de reconocimiento automático. Es una tecnología de software que puede reconocer caracteres automáticamente e ingresarlos en la computadora. Es el software principal que respalda el escáner. Pertenece a la categoría de entrada sin teclado y requiere la cooperación de dispositivos de entrada de imágenes, principalmente escáneres. Actualmente, OCR se refiere principalmente al software de reconocimiento de caracteres. Antes de que Ziguang comenzara a igualar el software de reconocimiento chino en 1996, los escáneres y el software OCR en el mercado se vendían por separado. ¿Software OCR profesional "software de reconocimiento de caracteres chinos"? ¿Colgando en el aire? ¿Escuela de viudas Frog K? ¿Le debes leche real a Zhiyuan? El software CR también se actualiza constantemente y los fabricantes de escáneres ahora venden software OCR profesional con sus propios escáneres. El rápido desarrollo de la tecnología OCR está estrechamente relacionado con el uso generalizado de escáneres. En los últimos dos años, con la popularización gradual de los escáneres y la mejora de la tecnología OCR, el OCR se ha convertido en un poderoso asistente para la mayoría de los usuarios de escáneres.
1. Desarrollo de la tecnología OCR
Desde que apareció la primera generación de productos OCR a principios de la década de 1960, después de más de 30 años de desarrollo y mejora continua, varios tipos de productos OCR, incluida la escritura a mano, la investigación sobre la tecnología OCR ha logrado logros notables. Los requisitos funcionales de los productos OCR también han cambiado, pasando de centrarse en la tasa de reconocimiento a imponer requisitos más altos en la velocidad de reconocimiento, una interfaz fácil de usar, simplicidad de operación, estabilidad del producto, adaptabilidad, confiabilidad y fácil actualización, y servicio de preventa y posventa. calidad.
El primer producto OCR fue desarrollado por IBM. En 1965, el producto OCR IBM-IBML 287 se exhibió en la Feria Mundial de Nueva York. En ese momento, este producto sólo podía reconocer números impresos, letras en inglés y algunos símbolos, y debían estar en las fuentes designadas. A finales de la década de 1960, Hitachi y Fujitsu también desarrollaron sus propios productos OCR. El primer sistema automático de clasificación de cartas del mundo que reconocía códigos postales escritos a mano fue desarrollado por Toshiba Corporation de Japón, y NEC Corporation lanzó el mismo sistema dos años después. En 1974, la tasa de clasificación automática de cartas alcanzó aproximadamente el 92%, se utilizó ampliamente en el sistema postal y desempeñó un buen papel. En 1983, la empresa japonesa Toshiba lanzó su OCRV595, un sistema OCR para reconocer caracteres japoneses impresos. La velocidad de reconocimiento es de 70 a 100 caracteres chinos por segundo y la tasa de reconocimiento es del 99,5%. Posteriormente, Toshiba inició un trabajo de investigación sobre el reconocimiento de kanji japoneses escritos a mano.
La investigación de mi país sobre la tecnología OCR comenzó tarde en la década de 1970, comenzó a estudiar la tecnología de reconocimiento de números, letras y símbolos en inglés y, a fines de la década de 1970, comenzó a estudiar el reconocimiento de caracteres chinos. . De 65438 a 0986, el Programa Nacional 863 en el campo de la información organizó la Universidad de Tsinghua, la Escuela Técnica y Vocacional de Información de Beijing y la Escuela de Automatización de Shenyang para desarrollar conjuntamente software OCR chino. En 1989, la Universidad de Tsinghua tomó la iniciativa en el lanzamiento del primer conjunto de software OCR chino en China: Tsinghua Wentong TH-OCR1.0, y el OCR chino pasó oficialmente del laboratorio al mercado. El software de reconocimiento de caracteres chinos impresos OCR de Tsinghua lanzó posteriormente el sistema de reconocimiento de caracteres chinos impresos TH-OCR 92, práctico, simplificado/tradicional, de múltiples fuentes y multifuncional de alto rendimiento, que logró un gran progreso en la tecnología de reconocimiento de caracteres chinos impresos. El sistema de reconocimiento de caracteres impresos mixtos en chino e inglés de alto rendimiento TH-OCR 94 lanzado en 1994 fue evaluado por expertos como "el primer sistema de reconocimiento de caracteres impresos mixtos en chino e inglés lanzado en el país y en el extranjero, y generalmente se encuentra a nivel internacional líder. " A mediados y finales de la década de 1990, el Departamento de Ingeniería Electrónica de la Universidad de Tsinghua propuso y llevó a cabo una investigación exhaustiva sobre el reconocimiento de caracteres chinos y logró resultados importantes en los campos del texto impreso, el reconocimiento de caracteres chinos escritos a mano en línea y el reconocimiento de caracteres chinos escritos a mano fuera de línea. y reconocimiento de símbolos de dígitos escritos a mano sin conexión. El logro representativo es el sistema integrado de reconocimiento de caracteres chinos TH-OCR 97, que puede completar el reconocimiento y la entrada de texto impreso, caracteres chinos escritos a mano en línea, caracteres chinos escritos a mano sin conexión y números escritos a mano en varios idiomas (chino, inglés). , japonés). En los últimos años, además de Tsinghua Wentong TH-OCR, también se han lanzado otros software de OCR con diferentes estilos, como Shangshu SH-OCR. El mercado chino de OCR se ha expandido constantemente y cuenta con usuarios en todo el mundo.
Se puede decir que la tecnología de reconocimiento del OCR impreso ha alcanzado un nivel muy alto. Los productos OCR han evolucionado desde ser capaces de reconocer números impresos específicos, letras en inglés y algunos símbolos en los primeros días hasta una potente herramienta informática de entrada rápida de información que puede analizar automáticamente diseños e identificar tablas, y realizar caracteres mixtos, múltiples fuentes y múltiples reconocimientos. de tamaño de fuente y diseño mixto vertical y horizontal. La tasa de reconocimiento de caracteres chinos impresos supera el 98%, e incluso la tasa de reconocimiento de caracteres con mala calidad de impresión supera el 95%. Puede reconocer fuentes chinas simplificadas y tradicionales, como la fuente Song, la fuente Hei, la fuente Kai y la fuente Song de imitación. Puede reconocer la composición tipográfica mixta de múltiples fuentes y diferentes tamaños de fuente, y la tasa de reconocimiento de caracteres chinos escritos a mano supera el 70%. Especialmente después de más de diez años de arduo trabajo, la tecnología OCR de caracteres chinos de mi país ha superado las dificultades de un inicio tardío y un gran conjunto de caracteres chinos. La velocidad de reconocimiento de texto (refiriéndose a la cantidad de palabras desde la extracción de características hasta la salida del resultado del reconocimiento). por unidad de tiempo) puede alcanzar más de 70 palabras/segundo. Debido a la madura tecnología de reconocimiento de caracteres chinos OCR impresos, los productos OCR se utilizan ampliamente en periodismo, imprenta, publicaciones, bibliotecas, automatización de oficinas y otras industrias.
Los productos OCR profesionales están orientados principalmente a industrias específicas, es decir, son adecuados para departamentos que necesitan procesar una gran cantidad de información de formularios todos los días, como servicios postales, impuestos, aduanas, estadísticas, etc. Este tipo de sistema OCR profesional para industrias específicas tiene un formato relativamente fijo y un conjunto de caracteres relativamente pequeño. A menudo se usa en combinación con dispositivos de entrada especiales, por lo que tiene las características de alta velocidad y alta eficiencia, como los sistemas de clasificación automática de correo. .
Los productos de reconocimiento de manuscritos escritos a mano sólo se lanzaron en 1996 y 1997 y se ofrecieron como funciones adicionales de los productos de reconocimiento de manuscritos impresos. Dado que los hábitos de escritura de las personas varían mucho, es bastante difícil lograr un reconocimiento gratuito de la escritura a mano. Por lo tanto, el campo de aplicación de la tecnología OCR de escritura a mano es el reconocimiento de escritura a mano en línea, es decir, la escritura humana y el reconocimiento por computadora, que es un método de reconocimiento en tiempo real.
2. El principio básico de OCR
En pocas palabras, el principio básico de OCR es ingresar la imagen del manuscrito en la computadora a través del escáner y luego en la computadora. saca la imagen de cada carácter y la convierte en código de caracteres chinos. El proceso de trabajo específico es que el escáner convierte la señal óptica del manuscrito de caracteres chinos en una señal eléctrica a través de un dispositivo CCD de carga acoplada, y luego la convierte en una señal digital a través de un convertidor de analógico a digital y la transmite al computadora. La computadora recibe imágenes digitales de manuscritos, que pueden contener caracteres chinos impresos o escritos a mano, y luego reconoce los caracteres chinos en esas imágenes. Para los caracteres impresos, los datos del documento se convierten primero en archivos de imágenes originales de matriz de puntos en blanco y negro a través de medios ópticos, y luego los caracteres de la imagen se convierten a formato de texto a través de un software de reconocimiento para su posterior procesamiento mediante un software de procesamiento de textos. Entre ellos, el reconocimiento de caracteres es una tecnología importante de OCR.
1. Dos formas de reconocimiento OCR
Al igual que otros datos de información, toda la información gráfica capturada por los escáneres en la computadora se registra utilizando dos números 0 y 1. Identificada, toda la información es solo una serie de puntos o puntos de muestra guardados con 0 y 1. El programa de reconocimiento OCR identifica principalmente la información de los caracteres en la página mediante la coincidencia de patrones de celda y la extracción de características.
La coincidencia de patrones utiliza fuentes estándar y mapas de bits de tamaño de fuente para comparar libremente cada carácter con el archivo. Si la aplicación tiene una base de datos grande que contiene caracteres, la aplicación seleccionará los caracteres apropiados para una coincidencia correcta. El software debe utilizar algunas técnicas de procesamiento para encontrar la coincidencia más similar, generalmente probando constantemente diferentes versiones del mismo personaje para comparar. Algunos programas pueden escanear una página de texto e identificar cada carácter que define una nueva fuente. Algunos programas utilizan su propia tecnología de reconocimiento para identificar los caracteres en la página tanto como sea posible y luego seleccionan manualmente o ingresan directamente caracteres irreconocibles.
La extracción de características consiste en descomponer cada carácter en muchas características diferentes, incluidas diagonales, líneas horizontales y curvas. Luego, estas características se relacionan con caracteres comprendidos (reconocidos). Como ejemplo sencillo, si una aplicación reconoce dos líneas horizontales, "pensará" que el carácter podría ser "dos". La ventaja del método de extracción de características es que puede reconocer múltiples fuentes. Por ejemplo, la caligrafía china se logra mediante la extracción de rasgos.
La mayoría de las aplicaciones de OCR han agregado funciones inteligentes de revisión gramatical para mejorar aún más la tasa de reconocimiento. Corrige principalmente la ortografía y la gramática mediante la verificación del contexto. En el reconocimiento de caracteres, las aplicaciones de OCR realizarán muchas comprobaciones de cohesión del contexto y comprobarán las palabras de la cadena en consecuencia en función de las frases existentes y el orden fijo de las palabras en el programa. Las aplicaciones de software más avanzadas reemplazarán automáticamente las palabras incorrectas con las palabras que "piensa" para corregir el significado de la oración.
2. Varios pasos del reconocimiento de caracteres
El reconocimiento de caracteres incluye los siguientes pasos: entrada de gráficos, preprocesamiento, reconocimiento de palabras y posprocesamiento.
(1) Entrada gráfica
Se refiere a ingresar un documento en la computadora a través de un dispositivo de entrada, es decir, digitalizar el manuscrito. Un dispositivo muy utilizado hoy en día es el escáner. La calidad del escaneo de las imágenes de los documentos es un requisito previo para el correcto reconocimiento por parte del software OCR. La selección correcta de la resolución de escaneo y los parámetros relacionados es la clave para garantizar que los caracteres sean claros y no se pierdan características. Además, el documento debe colocarse lo más correctamente posible para garantizar que el ángulo de inclinación detectado mediante el preprocesamiento sea pequeño y la deformación de la imagen del texto después de la corrección de inclinación sea pequeña. Estas simples operaciones mejorarán la precisión del reconocimiento del sistema. Por otro lado, demasiados bolígrafos rotos pueden separar la mitad de la imagen del texto debido a una configuración de escaneo incorrecta. Algunas características se pierden debido a bolígrafos rotos y trazos atascados. Al comparar funciones con la biblioteca de funciones, la distancia de las funciones aumentará y la tasa de error de reconocimiento aumentará.
(2) Preprocesamiento
Escanee una imagen de un documento impreso simple, clasifique cada imagen de carácter y entréguela al módulo de reconocimiento para su reconocimiento. Este proceso se denomina preprocesamiento de imágenes. . El preprocesamiento se refiere a algunos trabajos de preparación antes del reconocimiento de caracteres, incluida la purificación de la imagen y la eliminación del ruido obvio (interferencia) en la imagen original. Las tareas principales son medir el ángulo de inclinación del documento, analizar el diseño del documento, confirmar el diseño del campo de texto seleccionado, dividir líneas de texto en diseños horizontales y verticales, separar imágenes de texto en cada línea y distinguir signos de puntuación. El trabajo en esta etapa es muy importante y el efecto del procesamiento afecta directamente la precisión del reconocimiento de caracteres.
El análisis de diseño es un análisis general de las imágenes de texto que combina todos los bloques de texto del documento para distinguir los párrafos de texto y el orden del diseño, así como las áreas de imágenes y tablas.
El límite de dominio de cada bloque de texto (las coordenadas del punto inicial y final del dominio en la imagen), los atributos en el dominio (diseño horizontal y vertical) y la relación de conexión de cada bloque de texto se proporcionan como estructuras de datos. al módulo de reconocimiento para el reconocimiento automático. El área de texto se reconoce directamente, el área de la tabla se analiza y reconoce especialmente y el área de la imagen se comprime o simplemente se almacena. La segmentación de caracteres de línea es el proceso de cortar primero una imagen grande en líneas y luego separar los caracteres individuales de las líneas de la imagen.
(3) Reconocimiento de palabras
El reconocimiento de una sola palabra es la tecnología central del reconocimiento de caracteres OCR. La clave es permitir que la computadora "reconozca caracteres", que es la llamada tecnología de reconocimiento, y convierta los gráficos e imágenes de la imagen del texto detectado en el texto escaneado al código estándar del texto. Al igual que el cerebro humano reconoce las palabras porque conserva varias características de la palabra, como la estructura de la palabra y los trazos de la palabra. Para que una computadora reconozca caracteres, primero se debe almacenar información como los caracteres. Sin embargo, qué información se almacena y cómo obtenerla es un proceso muy complejo y se debe lograr una tasa de reconocimiento muy alta. aceptar exigencias. El enfoque habitual es analizar personajes en función de sus trazos, puntos característicos, información de proyección y distribución regional de puntos.
Hay miles de caracteres chinos de uso común en China y la tecnología de reconocimiento es tecnología de comparación de características. Mediante la comparación con la biblioteca de funciones de reconocimiento, se encuentra la palabra con las características más similares y se extrae el código estándar de la palabra, que es el resultado del reconocimiento. La comparación es una forma básica para que las personas comprendan las cosas. El reconocimiento de caracteres chinos también utiliza la comparación para descubrir las similitudes, similitudes y diferencias entre los caracteres chinos y para comprender la relación entre cantidad y calidad, así como la relación entre tiempo y espacio. Para los caracteres chinos con conjuntos de caracteres más grandes, generalmente se utilizan clasificación de múltiples niveles, características múltiples y coincidencia dinámica completa para encontrar conjuntos similares para garantizar una alta tasa de clasificación, una gran adaptabilidad y una buena estabilidad. El enfoque de la clasificación subdividida es la similitud; Emparejamiento y ponderación Procesamiento, discriminación estructural, análisis cuantitativo y cualitativo, y la relación entre conectivos anteriores y siguientes, y finalmente discriminación. El reconocimiento de caracteres chinos es esencialmente la aplicación de la ciencia comparada o la ciencia cognitiva en la inteligencia artificial, y su tecnología clave es la biblioteca de funciones de reconocimiento. Sólo con dicha biblioteca de funciones la computadora puede completar la función de reconocimiento de palabras.
En el diseño de los documentos de imagen, no sólo hay texto e imágenes, sino también, a veces, tablas. Para digitalizar las tablas identificadas, se requiere un procesamiento especial de los campos de la tabla durante el proceso de análisis del diseño, incluida la extracción de la información estructural de las filas de la tabla, la clasificación de los campos de texto en la tabla, la identificación de las filas de la tabla y los campos de texto, y la digitalización. las filas de la tabla según Generar diferentes formatos de archivo. Dado que las tablas del documento son arbitrarias, diversas, cerradas y abiertas, especialmente las barras en las tablas, es difícil analizar las tablas.
(4) Postprocesamiento
El posprocesamiento se refiere a hacer coincidir las palabras reconocidas o múltiples resultados de reconocimiento en forma de frases, es decir, segmentar los resultados del reconocimiento de palabras y comparar. con las frases de la biblioteca de vocabulario para mejorar la tasa de reconocimiento del sistema y reducir la tasa de reconocimiento erróneo.
El reconocimiento de caracteres chinos es el problema más difícil en el campo del reconocimiento de caracteres e involucra disciplinas como el reconocimiento de patrones, el procesamiento de imágenes, el procesamiento de señales digitales, la comprensión del lenguaje natural, la inteligencia artificial, las matemáticas difusas, la teoría de la información y las computadoras. , Procesamiento de información china, etc. Es una tecnología integral. En los últimos años, la tasa de reconocimiento correcto de los sistemas de reconocimiento de caracteres chinos impresos ha superado el 95%. Para mejorar aún más la tasa de reconocimiento general del sistema, también se han realizado investigaciones en profundidad sobre imágenes escaneadas, tecnología de preprocesamiento y posreconocimiento de imágenes, y se han logrado grandes avances, mejorando efectivamente el rendimiento general de la imagen impresa. Sistema de reconocimiento de caracteres chinos. La Universidad de Tsinghua ha logrado resultados sobresalientes en este campo y se ha convertido en una de las instituciones más autorizadas del mundo. Actualmente, todos los escáneres de Unisoc están equipados con el software Tsinghua OCR Millennium Edition, que ha alcanzado un nivel muy alto en términos de tasa de reconocimiento, reconocimiento de formas e incluso reconocimiento de escritura a mano estándar.
3. Habilidades de reconocimiento de texto OCR
En los últimos años, con la popularidad de los escáneres, la tecnología de reconocimiento OCR se ha desarrollado rápidamente y el rendimiento del software de reconocimiento de escaneo se ha mejorado y actualizado continuamente. a la inteligencia. Pero si desea obtener resultados de escaneo correctos rápidamente y obtener una entrada de texto eficiente, debe estudiar detenidamente los conocimientos relevantes, combinarlos con experiencia práctica y encontrar su propio conjunto completo de soluciones. A veces, cuando hacemos reconocimiento de caracteres, la tasa de reconocimiento es muy baja, menos del 95% como indica el software. Por favor, no culpe todavía al hardware o al software. De hecho, esta es la razón por la que aún no dominamos las habilidades de escaneo y reconocimiento OCR.
Los siguientes son algunos métodos y técnicas comúnmente utilizados en operaciones de reconocimiento de caracteres.
1. La configuración de la resolución es un requisito previo importante para el reconocimiento de caracteres. En términos generales, los escáneres proporcionan más información de imagen y el software de reconocimiento puede obtener resultados de reconocimiento fácilmente. Pero eso no significa que cuanto mayor sea la resolución de escaneo, mayor será la precisión del reconocimiento. Elija una resolución de 300 ppp o 400 ppp, adecuada para escanear la mayoría de los documentos. Preste atención al escaneo y reconocimiento del texto original. Al configurar la resolución de escaneo, no exceda la resolución óptica del escáner; de lo contrario, la ganancia superará la pérdida. A continuación se muestran algunas configuraciones típicas solo como referencia.
(1)Se recomienda 1, 2, 3, 200 ppp.
(2)Se recomienda 300 dpl para los párrafos pequeños 4 y 5.
(3) Se recomienda 400 dpl para los segmentos 5 y 6 con números más pequeños.
(4) Se recomienda utilizar 600 ppp para los segmentos 7 y 8.
2. Al escanear, ajuste los valores de brillo y contraste de forma adecuada para que los documentos escaneados estén en blanco y negro.
Ésta es la clave para la tasa de reconocimiento. La configuración de los valores de brillo y contraste del escaneo se basa en el principio de observar los finos trazos de los caracteres chinos en la imagen escaneada sin detenerse. Antes del reconocimiento, observe la calidad del texto en la imagen escaneada. Si hay puntos negros o puntos oscuros en la imagen o las líneas de los caracteres son gruesas y oscuras y los trazos no se pueden distinguir, significa que el valor de brillo es demasiado pequeño y debe aumentar el valor de brillo e intentarlo nuevamente. Si las líneas de texto en la imagen son desiguales, rotas o incluso el contorno de los caracteres chinos está muy incompleto, significa que el valor de brillo es demasiado alto y debe reducirlo e intentarlo nuevamente.
3. Seleccione el software de escaneo. Elegir un buen software de OCR que se adapte a sus necesidades es la base para un buen reconocimiento de texto. Generalmente, no debe utilizar el software OEM que viene con su escáner. El software OCR de los OEM tiene pocas funciones y efectos deficientes, y algunos incluso no tienen reconocimiento chino. Después de la comparación, creo que las capacidades de reconocimiento y las funciones de uso de Unisoc OCR2003 Professional Edition y el sistema de entrada de reconocimiento automático de texto Shangshu OCR6.0 son más sobresalientes. Elija otro software de imágenes. ¿El software OCR no tiene interfaz de escaneo? ¿Por qué buscar software de imágenes? En primer lugar, el software OCR no puede reconocer todos los escáneres; en segundo lugar, y lo más importante, las imágenes escaneadas mediante la interfaz de escaneo del software de imágenes generalmente son fáciles de procesar;
4. Si es necesario formatear el texto, como negrita, cursiva, sangría en la primera línea, etc. , algunos programas de OCR no lo reconocerán y el formato se perderá o se distorsionará. Si debe escanear texto formateado, asegúrese de que el software de reconocimiento que utilice tenga soporte preexistente para el escaneo de formato de texto. También puede desactivar el sistema de reconocimiento de patrones para que el software pueda concentrarse en encontrar los caracteres correctos, independientemente de las fuentes y el formato de las fuentes.
Referencia:/question/27443880.html? es=qrl3