¿Qué incluye una base de datos de texto completo?
Las bases de datos de texto completo incluyen CNKI, VIP Information, Wanfang Database, springerlink, IEEE, OCLC, ProQuest, JSTOR, ScienceDirect, Wiley, etc.
La base de datos de texto completo, es decir, la base de datos de campo de texto completo, almacena y organiza el contenido de información de documentos de texto completo de acuerdo con un determinado sistema estructural y método organizativo, de modo que los usuarios puedan utilizar el contenido de documentos de texto completo como entrada de recuperación para obtener información más detallada del documento.
Pasos de desarrollo
Los pasos de desarrollo de la base de datos de texto completo incluyen la preparación de datos, el preprocesamiento de texto, la carga de datos, la recuperación de datos y el mantenimiento de datos.
① La preparación de datos se refiere al proceso de preprocesamiento de recopilación, organización y clasificación de datos que se cargarán en la base de datos de texto completo. Los datos cargados en una base de datos de texto completo se pueden obtener de diversas formas. Las fuentes de datos comunes incluyen: archivos generados por mecanografía por computadora, manuscritos generados por impresión electrónica, archivos transmitidos por computadoras en Internet, publicaciones electrónicas, archivos generados por procesamiento de gráficos y entradas manuales especialmente organizadas para establecer bases de datos.
Una vez recopilados los datos, es necesario realizar una clasificación sencilla. Generalmente, se clasifican según el contenido de los datos. Se carga contenido similar en la misma biblioteca y es fácil de encontrar. La clasificación es más efectiva para big data.
②El preprocesamiento de texto incluye indexación y formato estándar. Cuando los formatos de los documentos son diversos, conviene organizarlos y estandarizarlos. La indexación por lotes completada en esta etapa de preprocesamiento no está limitada por la estructura de la base de datos de texto completo y es altamente eficiente. Esto es antes de establecer una base de datos de texto completo e indexar los datos mediante software de procesamiento de textos y software de indexación automática especializado.
Hay varias formas de crear un tesauro de indexación. El creador del sistema puede compilarlo después de explorar el texto, o el editor puede agregar símbolos especiales a las palabras del texto a través de la computadora y recopilarlos. software especial, fusionar, organizar, eliminar duplicados o agregar indexación de atributos según lo anterior.
③Una vez que los datos estén listos, se pueden cargar (copiar, ingresar) en el archivo de la base de datos. Los datos se pueden cargar en un solo proyecto o en lotes. Se utiliza un método de carga único para un artículo a la vez, que es adecuado para cargar documentos en cualquier momento; el modo por lotes carga varios artículos a la vez, que es adecuado para la carga centralizada.
(4) Una vez establecida la base de datos, se puede buscar en ella de acuerdo con la función de búsqueda proporcionada por el sistema de búsqueda de texto completo.
⑤Una vez establecida la base de datos de texto completo, el contenido de la base de datos debe indexarse, actualizarse, agregarse y ordenarse con frecuencia para garantizar la practicidad, validez e integridad de la base de datos. El mantenimiento de una base de datos de texto completo generalmente incluye: la definición de la estructura de la base de datos de texto completo, el contenido de los datos de la base de datos de texto completo, el vocabulario utilizado por el sistema de texto completo y las estadísticas y ajustes de utilización del espacio de almacenamiento.