Colección de citas famosas - Frases elegantes - Quiero convertir un PDF a Word para poder consultar fácilmente las palabras que contiene. ¿Qué software puede hacer esto?

Quiero convertir un PDF a Word para poder consultar fácilmente las palabras que contiene. ¿Qué software puede hacer esto?

El PDF ya está en formato de imagen, la única forma de convertirlo a Word es la siguiente

Primero, "seleccione una herramienta de texto y péguela en Word"

Si su archivo PDF está Compuesto por texto en lugar de imágenes, puede "En Adobe Acrobat 7.0 hay una herramienta para seleccionar texto para que pueda seleccionarlo y pegarlo en Word". Pero según su introducción, su archivo PDF está hecho de imágenes, por lo que no se puede utilizar este método.

2. Capturas de pantalla por lotes

El método de captura de pantalla no es recomendable para imágenes que no son muy claras, porque se perderá información como dice el cartel o aumentará la carga de trabajo.

Te recomiendo que primero exportes este archivo como una imagen usando la función de exportación en Adobe Acrobat. Método: en el menú de arriba, seleccione Archivo>Exportar>La imagen extraída es>Archivo JPEG (los otros dos están bien, los archivos JPEG son más pequeños) y luego siga las instrucciones para seleccionar la carpeta adecuada para guardar la imagen.

Las imágenes guardadas de esta manera requieren mucho menos trabajo que tomar capturas de pantalla página por página y conserva toda la información del archivo original. Pero 500 páginas no es un número decimal, será muy lento, pero al menos no tendrás que intervenir tú mismo.

En tercer lugar, identificación de lotes

Si desea editar, debe realizar el reconocimiento OCR. La clave es cómo hacer este trabajo en lotes.

Un mejor software de OCR puede importar varias imágenes a la vez para su reconocimiento y luego su salida. Sin embargo, 500 páginas parece demasiado. Nunca he grabado más de 50 páginas, normalmente veinte o treinta páginas. Incluso 50 páginas es mejor que una, ¿verdad?

He utilizado muchos programas de OCR y creo que Hanwang Text Network y Ziguang TH son mejores. Su tasa de reconocimiento es muy alta, pudiendo reconocer también tablas, caracteres chinos tradicionales, ingleses, caracteres verticales, etc. El método de salida también es muy flexible, puede generar solo texto o puede generar archivos WORD de acuerdo con el formato de diseño original, no es complicado de usar; No sé qué versión de Hanwang estás usando, ¿entonces la tasa de reconocimiento es tan baja? A veces reconozco artículos de mala calidad en los periódicos y su tasa de reconocimiento sigue siendo aceptable.

Cuarto, mejore la tasa de reconocimiento

Si la calidad de su imagen base es muy pobre, se recomienda que primero amplíe, elimine puntos y enfoque la imagen exportada en el procesamiento de imágenes. Luego se envía al OCR para su reconocimiento.

Calculo que es posible que aún se pierda parte de la información original de la imagen enviada al OCR, lo que provocará una disminución en la tasa de reconocimiento. Porque como se puede ampliar, la tasa de reconocimiento de la captura de pantalla ampliada es aceptable, lo que significa que la información de la imagen original es suficiente para el reconocimiento OCR. Es sólo que perdiste algo durante la operación.

Entonces, te sugiero:

1) Primero exporta tu archivo PDF como 5 a 10 páginas de imágenes.

2) Utilice software OCR como Hanwang para la identificación de lotes (preste atención a excluir piezas irregulares al identificar).

3) Salida a un documento de Word

Si se puede reconocer correctamente, no necesito decir el resto. Si no funciona, entonces realmente hay algún problema con su mapa base y necesita corregir por lotes las imágenes exportadas.