Colección de citas famosas - Frases elegantes - ¿Cómo escribir manualmente en sitios web novedosos?

¿Cómo escribir manualmente en sitios web novedosos?

Utilice un software de reconocimiento óptico de caracteres.

En otras palabras, este software puede reconocer el texto de la imagen escaneada por el escáner y convertir la imagen en texto.

La tecnología denominada OCR (reconocimiento óptico de caracteres) se refiere a un dispositivo electrónico (como un escáner o una cámara digital) que comprueba los caracteres impresos en el papel, determinando su forma detectando los patrones claros y oscuros. , y luego usando el método de reconocimiento de caracteres para El proceso de traducir formas en caracteres de computadora. Es decir, el proceso de escanear datos de texto y luego analizar archivos de imagen para obtener información de texto y diseño.

Dado que el OCR es una tecnología de tira y afloja con la tasa de reconocimiento, cómo depurar o utilizar información auxiliar para mejorar la tasa de reconocimiento es el tema más importante de OCR. De ahí el término ICR (reconocimiento inteligente de caracteres). ). producir. Dependiendo del medio en el que existan los materiales escritos y las formas en que se obtienen estos materiales, se derivan diversas aplicaciones.

1. Desarrollo del reconocimiento óptico de caracteres

En cuanto al desarrollo del OCR, ya en las décadas de 1960 y 1970, países de todo el mundo comenzaron a estudiar el OCR. En los primeros días de la investigación, la mayor parte de la investigación se centraba en los métodos de reconocimiento de caracteres, y los caracteres reconocidos eran solo números del 0 al 9. Tomando como ejemplo Japón, que también tiene marcos, la teoría básica de reconocimiento de OCR comenzó a estudiarse alrededor de 1960. Inicialmente, los números se utilizaban como objetos, pero entre 1965 y 1970 comenzaron a aparecer algunos productos sencillos, como el sistema de reconocimiento de códigos postales para texto impreso, que reconocía el código postal en el correo y ayudaba a la oficina de correos a distribuir cartas regionales. Por tanto, los códigos postales siempre han sido la forma de escribir direcciones defendida por varios países.

Se puede decir que el OCR es una investigación técnica incierta. La precisión es como una función de aproximación infinita. Si conocemos su valor de aproximación, sólo podremos acercarnos a él, pero no alcanzarlo. Siempre estamos luchando al 100%. Porque hay demasiados factores involucrados, como los hábitos del escritor o la calidad de impresión del documento, la calidad del escaneo del escáner, el método de identificación, las muestras para aprender y probar, etc. , afectará su precisión. Por lo tanto, los productos OCR requieren un núcleo de reconocimiento potente, y la conveniencia de operación y uso, las funciones y métodos de depuración proporcionados por el producto también son factores importantes para determinar la calidad del producto.

El propósito de un sistema de reconocimiento OCR es muy simple, y es transformar la imagen para que los gráficos de la imagen se sigan conservando. Los datos de la tabla y los caracteres de la imagen se convierten. caracteres de computadora, lo que puede reducir los datos de la imagen. Con el almacenamiento, los caracteres reconocidos se pueden reutilizar y analizar y, por supuesto, también puede ahorrar mano de obra y tiempo de entrada del teclado.

Desde la imagen hasta la salida del resultado, es necesario pasar por la entrada de la imagen, el preprocesamiento de la imagen, la extracción, la comparación y el reconocimiento de características del texto y, finalmente, por la corrección manual para corregir los errores tipográficos y generar el resultado.

Aquí se presentan uno por uno:

Entrada de imagen:

El sujeto a procesar OCR debe pasar a través de un instrumento óptico (como un escáner de imágenes, máquina de fax o cualquier dispositivo fotográfico) al ordenador. Con el avance de la tecnología, los dispositivos de entrada como los escáneres se han vuelto cada vez más sofisticados, delgados, livianos y de alta calidad, lo que resulta de gran ayuda para el OCR. La resolución del escáner hace que las imágenes sean más claras y escanea más rápido, mejorando la eficiencia del procesamiento OCR.

Preprocesamiento de imágenes: El preprocesamiento de imágenes es el módulo que más problemas necesita para resolver en el sistema OCR. El proceso desde la obtención de una imagen binaria que no es ni negra ni blanca ni una imagen en color en escala de grises hasta generar de forma independiente una imagen de texto pertenece al preprocesamiento de imágenes. Incluyendo procesamiento de imágenes como normalización de imágenes, eliminación de ruido y corrección de imágenes, así como preprocesamiento de archivos como análisis gráfico, línea de texto y separación de texto. En términos de procesamiento de imágenes, ha alcanzado una etapa madura en teoría y tecnología, por lo que existen muchas bibliotecas de enlaces en el mercado o en sitios web que se pueden utilizar en el preprocesamiento de documentos, dependiendo de varias habilidades para las imágenes; En primer lugar, imágenes, tablas y Separa el área de texto, e incluso distingue la dirección de composición, el esquema y el texto principal del artículo. Solo el tamaño y la fuente del texto pueden considerarse como el documento original.

Extracción de características de caracteres: solo en términos de tasa de reconocimiento, se puede decir que la extracción de características es el núcleo del OCR. Qué características y cómo extraerlas afectan directamente la calidad del reconocimiento, por lo que en los primeros días de la investigación de OCR, hubo muchos informes de investigación sobre la extracción de características. Se puede decir que las características son los chips de reconocimiento, y las distinciones simples se pueden dividir en dos categorías: una son las características estadísticas, como la proporción de puntos blancos y negros de un área de texto. Cuando el texto se divide en varias regiones, la combinación de la relación de puntos blanco/negro de cada región se convierte en un vector numérico en el espacio, y la teoría matemática básica es suficiente para comparar. Otro tipo de características son las características estructurales, como el número y la posición de los puntos finales de los trazos y las intersecciones de palabras obtenidas después del refinamiento de la imagen del texto, o la comparación con segmentos de trazos utilizando métodos de comparación especiales. La mayoría de los métodos de reconocimiento de software de entrada de escritura a mano en línea disponibles en el mercado se basan en este método estructural.

Base de datos de comparación: después de calcular las características de los caracteres de entrada, ya sea utilizando características estadísticas o características estructurales, debe haber una base de datos de comparación o una base de datos de características para comparar. El contenido de la base de datos debe incluir todos los conjuntos de caracteres que se van a reconocer, así como los grupos de características obtenidos mediante el mismo método de extracción de características que los caracteres de entrada.

Reconocimiento de contraste:

Este es un módulo que puede aprovechar al máximo la teoría de operaciones matemáticas. Según las diferentes características, elija diferentes funciones matemáticas de distancia.

Los métodos más famosos incluyen el método de comparación del espacio euclidiano, el método de comparación relajada y el método de programación dinámica (DP). Así como el establecimiento y comparación de métodos famosos como bases de datos de redes neuronales y hmm (modelos ocultos de Markov). Para que los resultados del reconocimiento sean más estables, algunas personas también han propuesto los llamados sistemas expertos, que utilizan las diferencias y la complementariedad de varios métodos de comparación de características para hacer que los resultados del reconocimiento tengan un grado particularmente alto de confianza.

Postprocesamiento de texto: dado que la tasa de reconocimiento de OCR no puede alcanzar el 100%, o para mejorar la precisión y el valor de confianza de la comparación, algunas funciones de depuración e incluso corrección de errores se han vuelto indispensables en el sistema OCR. Pocos módulos. El posprocesamiento de palabras es un ejemplo, que utiliza las palabras reconocidas comparadas y sus posibles palabras candidatas similares para encontrar la palabra más lógica basándose en las palabras previamente reconocidas y realizar correcciones.

Tesauro: Tesauro establecido para el posprocesamiento de textos.

Corrección manual:

Antes del último nivel de OCR, el usuario puede simplemente sostener el mouse, seguir el ritmo del diseño del software o simplemente mirar, lo que puede requerir la energía y la energía del usuario. Es hora de corregir o incluso encontrar posibles errores de OCR. Un buen software de OCR no sólo tiene un núcleo estable de procesamiento y reconocimiento de imágenes para reducir la tasa de error, sino que también el proceso de operación de corrección manual y las funciones afectan la eficiencia del procesamiento de OCR. Por lo tanto, la comparación de la imagen del texto con los caracteres reconocidos, la posición de su información en pantalla, las funciones de caracteres candidatos de cada carácter reconocido, la función de rechazar los caracteres reconocidos y el texto potencialmente problemático están especialmente marcados después del texto posterior. tratamiento. Todos ellos están pensados ​​para que los usuarios utilicen el mínimo posible el teclado. Por supuesto, esto no significa que el texto que no muestra el sistema sea necesariamente correcto, al igual que la entrada del pentagrama que depende completamente del teclado también cometerá errores. En este momento todo depende de las necesidades del usuario.

Salida del resultado:

De hecho, la salida es una cuestión muy simple, pero depende de lo que haga el usuario con OCR. Algunas personas solo quieren que el archivo de texto se reutilice como parte del texto, por lo que solo es un archivo de texto general, otras quieren que sea exactamente igual que el archivo de entrada, por lo que hay una función para reproducir el texto original, y otras la gente presta atención al texto de la tabla, por lo que es necesario combinarlo con Excel y otro software. Independientemente del cambio, es sólo un cambio en el formato del archivo de salida. Si es necesario restaurarlo al mismo formato que el texto original, es necesario componerlo manualmente después del reconocimiento, lo que requiere mucho tiempo y trabajo.

En segundo lugar, el OCR chino

La tecnología de reconocimiento óptico de símbolos y OCR chino es un método de entrada automática para manuscritos chinos. Mediante la cooperación de escáneres ópticos y computadoras, el software OCR se utiliza para clasificar datos de imágenes y convertirlos en códigos internos de computadora, lo que puede reducir en gran medida la intensidad de la entrada de datos y aumentar la velocidad de la misma.

La entrada digital de materiales documentales generalmente se divide en:

1, modo de imagen pura.

2. Texto del directorio, modo imagen de texto.

3. Modo texto completo.

4. Método de indexación de texto completo. Una combinación de modo texto y modo imagen.

La investigación de mi país sobre la tecnología OCR comenzó tarde. En la década de 1970 se iniciaron las investigaciones sobre el reconocimiento de números, letras y símbolos ingleses. A finales de la década de 1970 se inició la investigación sobre el reconocimiento de caracteres chinos. En 1986, la investigación sobre el reconocimiento de caracteres chinos entró en una etapa sustancial y muchas instituciones de investigación lanzaron sucesivamente productos chinos de OCR.

El principal software de OCR de texto utilizado actualmente en China es Tsinghua Wentong TH-OCR, Beixin BI-OCR, Zhongzi ICR, Shenyang Automation Institute SY-OCR, Beijing Shuguang Company NI-OCR (recibido por Zhongzi Hanwang Acquisition ), etc., el escáner de soporte es un escáner de superficie plana disponible en el mercado.

En tercer lugar, medir los estándares de OCR

Los principales indicadores para medir el rendimiento de un sistema OCR son: tasa de rechazo, tasa de error, velocidad de reconocimiento, facilidad de interfaz de usuario, estabilidad del producto, facilidad de viabilidad de uso y viabilidad.

4. Principio de funcionamiento del OCR

Proceso de reconocimiento:

Nivel de libro: chino, inglés; simplificado, tradicional;

Nivel de diseño. : vertical y horizontal; si hay columnas

Segmentación de líneas

Segmentación de palabras

Reconocimiento: el proceso de reconocimiento OCR real, la información de la imagen se restaura a información de texto; .

Postprocesamiento: intervención manual, concentrada principalmente en las cuatro primeras etapas.

La precisión del reconocimiento puede alcanzar el 99 %

Cinco: la tasa de reconocimiento OCR depende de

1. Generalmente se recomienda que la calidad de la imagen sea de 150 ppp o superior.

2. Generalmente, el reconocimiento del color es deficiente y las imágenes en blanco y negro se reconocen mucho. Por lo tanto, se recomienda que el OCR esté en formato tif en blanco y negro.

3. Lo más importante es la fuente. Si es escritura a mano, la tasa de reconocimiento es muy baja.

La tasa de error del reconocimiento OCR simplificado chino es de 3 sobre 10.000. Si se requiere una mayor precisión, se requiere más intervención manual. La dificultad para reconocer los caracteres chinos tradicionales se debe a que las bibliotecas de fuentes tradicionales son inconsistentes (la biblioteca de fuentes durante la República de China es inconsistente con la biblioteca de fuentes tradicionales actual). Bajo intervención manual, la tasa de precisión puede alcanzar más del 90% (cuando los gráficos y el texto son claros).

OCR es una tecnología de entrada de computadora que convierte archivos de imágenes de texto en archivos de texto editables mediante el reconocimiento de patrones, cambiando por completo el concepto de entrada de datos en soportes de papel de computadora. Siempre que utilice un escáner para ingresar la imagen de texto en la computadora, se puede convertir en un archivo de texto modificable, que es decenas de veces más rápido que la entrada manual. Con la amplia aplicación de la tecnología OCR, la gente la reconoce gradualmente.

Cuando el gigante internacional del software Microsoft desarrolló el sistema XP, se dio cuenta de la demanda del mercado de OCR e instaló completamente TH-OCR (desarrollado por Beijing Wentong Information Technology Co., Ltd.) en el Office 2003 lanzado. Intel, líder en el campo del hardware, también ha identificado TH-OCR como un proyecto de soporte a la tecnología MMX.

Recientemente, algunas grandes empresas se han dado cuenta de los beneficios del OCR y han comenzado a incluir la tecnología OCR en sus productos. Google ha comenzado el desarrollo del software OCR, escribiendo en su revelación de contratación: "Google ahora "lee" casi todas las páginas web del mundo. ¡Ven a ayudarnos a leer todos los materiales impresos (Google ahora puede "leer" casi todas las páginas web en! " del mundo. Todas las páginas web del mundo, tu llegada hará que Google lea toda la información impresa! Con Google iniciando el desarrollo de OCR, las aplicaciones de OCR han entrado en una era de plena explosión.

Ya sea dejar que la computadora escriba y genere texto, o dejar que la computadora lo reconozca y vea el texto, todo esto es para nuestras vidas. Con el avance de la informatización y la digitalización, ya no nos conformamos con escribir datos con diez dedos. La gente quiere invertir su tiempo y energía en trabajos más creativos, por eso quiere que las computadoras y otros dispositivos auxiliares sean más inteligentes. La tecnología OCR (reconocimiento óptico de caracteres) es una de ellas. En relación con la tecnología de impresión, es una tecnología para el reconocimiento de texto por computadora, que es mucho más compleja que la impresión.

La competencia económica trae consigo más actividades empresariales, y las tarjetas de visita son un protagonista indispensable en toda actividad. También han surgido productos de gestión de tarjetas de presentación, y las herramientas de gestión de identificación de tarjetas de presentación también son productos con tecnología OCR como núcleo. Utilice la herramienta de reconocimiento de tarjetas de presentación para escanear, identificar y clasificar tarjetas de presentación, que no solo se pueden importar a teléfonos móviles, PDA, etc. y también puede hacer una copia de seguridad de la información de la tarjeta de presentación, para que no tenga que preocuparse por perderla. Wentong Electronic Card es un excelente producto de gestión y reconocimiento de tarjetas de presentación que puede ordenar la vida empresarial y ahorrar más tiempo. Actualmente, casi todos los escáneres y máquinas todo en uno están equipados con software OCR. Por ejemplo, los fabricantes de escáneres como HP, UNISCAN, Epson, Canon y Lenovo incluyen el Wentong TH-OCR.