Colección de citas famosas - Colección de máximas - ¿Qué es la búsqueda de texto completo?

¿Qué es la búsqueda de texto completo?

Es una tecnología de recuperación que utiliza texto, sonido, imágenes y otros datos. Recupere el contenido del documento como contenido principal en lugar de características de apariencia.

Los sistemas principales incluyen el sistema TRS, el sistema Tianyu, etc.

En comparación con otros motores de búsqueda, la característica distintiva del motor de búsqueda de texto completo es que puede utilizar cualquier palabra significativa en el texto como entrada de recuperación, y el resultado de la recuperación es el documento original, no un pista del documento.

Con el desarrollo de la industria informática, cada vez más información electrónica se basa en dispositivos de almacenamiento informático. Esta información se puede dividir aproximadamente en dos categorías: datos estructurados y datos no estructurados. Los datos estructurados se refieren a cuentas financieras corporativas y datos de producción, datos de calificaciones de los estudiantes, etc. , los datos no estructurados se refieren a datos multimedia, como datos de texto, imágenes y sonidos, etc. Según las estadísticas, los datos no estructurados representan más del 80% de la cantidad total de información. Para datos estructurados, la tecnología RDBMS (sistema de gestión de bases de datos relacionales) es actualmente la mejor manera de gestionar datos estructurados. Sin embargo, debido a la estructura subyacente del propio RDBMS, es algo deficiente en la gestión de grandes cantidades de datos no estructurados, especialmente la baja velocidad de consulta de estos datos no estructurados masivos. Y mediante la tecnología de búsqueda de texto completo, estos datos no estructurados se pueden gestionar de manera eficiente.

Después de varios años de desarrollo, la recuperación de texto completo ha pasado de ser un programa inicial de coincidencia de cadenas a un software a gran escala que puede gestionar de manera integral datos no estructurados, como textos grandes, voz, imágenes e imágenes en movimiento. Debido a cambios profundos en la connotación y denotación, los sistemas de recuperación de texto completo se han convertido en sinónimo de una nueva generación de sistemas de información de gestión, y los indicadores básicos para medir los sistemas de recuperación de texto completo se han estandarizado gradualmente.

En primer lugar, nos centramos en la tasa de recuperación, que es la relación entre la cantidad de materiales relevantes recuperados por el sistema y la cantidad total de materiales relevantes en la base de datos del sistema durante una determinada búsqueda. La precisión es clave para garantizar que encontremos el material más útil y es la relación entre la cantidad de material útil recuperado por el sistema y el número total de materiales recuperados. La velocidad de recuperación o el tiempo de respuesta es una garantía para mejorar la eficiencia del trabajo. Se refiere al tiempo requerido desde el envío de un tema de recuperación hasta la búsqueda de los resultados de los datos. La velocidad de recuperación más básica debería ser "decenas de millones de caracteres chinos, respuesta de segundo nivel". También hay indicadores como el alcance de inclusión (el alcance de la búsqueda), la carga del usuario (el esfuerzo total del usuario en el proceso de recuperación) y la forma de salida (la forma de expresión de la información de salida). la calidad del sistema de recuperación de texto completo.

Los motores de búsqueda deberían ser la aplicación más importante de la tecnología de recuperación de texto completo. En la actualidad, el uso de buscadores se ha convertido en la segunda tecnología de aplicación en Internet después del envío y recepción de correos electrónicos. Los motores de búsqueda se originaron a partir de la teoría tradicional de recuperación de información de texto completo, es decir, un programa de computadora escanea cada palabra de cada artículo y crea un archivo palabra por palabra. El programa de recuperación contiene estas búsquedas en función de la frecuencia y probabilidad de cada búsqueda. Los términos que aparecen en cada artículo se clasifican en Word y finalmente se generan los resultados de la clasificación. La tecnología de recuperación de texto completo es la tecnología de soporte central de los motores de búsqueda.

Un buen motor de búsqueda es la clave para un sitio web ideal. A muchas personas les gusta utilizar el rastreo de sitios web cuando visitan sitios web. La recuperación de sitios web debe ser una combinación perfecta de navegación por categorías y recuperación de texto completo, incluidos los siguientes aspectos:

La clave para la navegación por categorías es el alcance de la búsqueda. La limitación del alcance de la búsqueda puede impedir que se muestren los resultados de la búsqueda. siendo demasiado numerosos y excesivos;

La búsqueda de texto completo es crucial para la recuperación de sitios web, puede ayudar a las personas a encontrar rápidamente las páginas web que necesitan en circunstancias normales.

A veces es difícil localizar la información requerida mediante la navegación por categorías y la búsqueda de texto completo, por lo que es necesario combinar la asistencia de búsqueda.

Debe haber funciones de clasificación relacionadas, porque cuando; Hay demasiados resultados de búsqueda y los usuarios no pueden navegar uno por uno. La mayoría de los usuarios sólo exploran los primeros elementos sin ninguna clasificación relevante. Quizás los resultados de búsqueda precisos estén clasificados en la parte posterior y los usuarios no puedan navegar, pero los resultados de búsqueda en la parte superior son casi irrelevantes, creando una ilusión para los usuarios.

Además, también se deben considerar la particularidad de HTML/XML, la compatibilidad con el acceso repentino de un gran número de usuarios simultáneos, las características dinámicas del sitio web y la eficiencia del mantenimiento del índice.

Actualmente existen Lucene, Solr, ElasticSearch, etc. El proceso de recuperación de texto completo se divide en dos procesos: indexación y búsqueda:

Indexación

Recopila datos de origen (información de destino que se buscará) de bases de datos relacionales, Internet y archivos. sistemas. Los datos fuente provienen de una amplia gama de fuentes.

Recopila datos de origen en una ubicación unificada, como un sistema de almacenamiento.

Para crear un índice, cree un índice en la base del índice (sistema de archivos), extraiga información clave de la base de datos de origen y extraiga una palabra de la información clave. Las palabras están relacionadas con los datos de origen. Es decir, cuando se crea un índice, las palabras se asocian con los datos de origen y esta asociación se registra en la base de datos del índice. Si se encuentra una palabra, significa que se han encontrado los datos de origen (páginas web http, libros electrónicos, noticias, etc.).

Buscar (Buscar)

Los usuarios realizan búsquedas (recuperación de texto completo) y escriben palabras clave de consulta.

Busque en la base de datos de índice desde la base de datos de índice y busque en la base de datos de índice palabra por palabra de acuerdo con la palabra clave de consulta.

Mostrar resultados de búsqueda.