Colección de citas famosas - Libros antiguos - El problema central del modelo de recuperación de información es detectar qué documentos son relevantes

El problema central del modelo de recuperación de información es detectar qué documentos son relevantes

La recuperación de información no es igual a la del motor de búsqueda. El desarrollo de Internet obviamente ha promovido el desarrollo y la aplicación de tecnología de recuperación de información. Han nacido una gran cantidad de productos de motores de búsqueda, que brindan a los internautas excelentes herramientas para la rápida adquisición de información y navegación de información en la red. Recuperación de información con el uso de motores de búsqueda. Malentendidos. La tecnología de recuperación de información de texto completo también se utiliza comúnmente en la tecnología de motores de búsqueda, pero la búsqueda de información en Internet y la búsqueda de información empresarial son diferentes. Uno es la cantidad de datos. Los sistemas de recuperación de información tradicionales generalmente tienen bases de datos de índice en el nivel de GB, pero la búsqueda web en Internet necesita procesar decenas de millones o miles de millones de páginas web. La estrategia básica de los motores de búsqueda es utilizar grupos de servidores de recuperación, lo cual es inapropiado e innecesario para la mayoría de las empresas. aplicaciones y no es adecuado para aplicaciones empresariales. El segundo es la relevancia del contenido. Hay demasiada información, por lo que es especialmente importante comprobarla y clasificarla con precisión. Los motores de búsqueda como Google han desarrollado una tecnología de análisis de enlaces web y utilizan el número de veces que una página web se conecta a Internet como base para juzgar su importancia. Sin embargo, los enlaces web dentro del sitio web corporativo están determinados por el sistema de recopilación, edición y publicación de contenido del sitio web. Hay factores accidentales en el número de enlaces y no pueden usarse como base para juzgar la importancia. Los requisitos de búsqueda de las aplicaciones empresariales reales se clasifican según la relevancia del contenido, es decir, la información más relevante para los requisitos de búsqueda se clasifica al principio de los resultados de la búsqueda. Esta clasificación de la tecnología de análisis de enlaces básicamente no funciona. . El tercero es en tiempo real. Los servicios de generación y recuperación de índices de los motores de búsqueda están separados y los datos se actualizan y sincronizan periódicamente. El ciclo de actualización de un motor de búsqueda grande debe medirse en semanas o incluso meses, mientras que la recuperación de información empresarial debe reflejar los cambios internos y externos. información en tiempo real, el mecanismo del sistema del motor de búsqueda no puede adaptarse a los requisitos del crecimiento y modificación dinámicos de los datos en las empresas. El cuarto es la seguridad. Todos los motores de búsqueda de Internet se basan en sistemas de archivos, pero el contenido de las aplicaciones empresariales generalmente se almacena de forma segura y centralizada en almacenes de datos para garantizar la seguridad de los datos y los requisitos de gestión. El quinto es la personalización y la inteligencia. Debido a las limitaciones de los datos de los motores de búsqueda y la escala de clientes, las tecnologías inteligentes con uso intensivo de computación, como la retroalimentación relevante, la recuperación de conocimientos y la extracción de conocimientos, son difíciles de aplicar. Sin embargo, las aplicaciones de recuperación de información dirigidas específicamente a las empresas pueden ir más allá en inteligencia y personalidad. (Recuperación de información), generalmente se refiere a la recuperación de información de texto, incluido el almacenamiento, organización, rendimiento, consulta, acceso y otros aspectos de la información. Su núcleo es la indexación y recuperación de información de texto. Históricamente, la recuperación de información ha pasado por muchas etapas de desarrollo, incluida la recuperación manual, la recuperación por computadora y ahora la recuperación inteligente y en red. En la actualidad, la recuperación de información se ha desarrollado hasta llegar a una etapa inteligente y en red. Los objetos de recuperación de información se han expandido desde contenidos de información que son relativamente cerrados, estables y consistentes, y administrados centralmente por bases de datos independientes, hasta contenidos web abiertos, dinámicos, de rápida actualización, ampliamente distribuidos y poco administrados; ampliado desde los profesionales de inteligencia originales hasta El público en general, incluido el personal de empresas, gerentes, maestros, estudiantes, profesionales, etc., ha planteado requisitos más altos y diversos para la recuperación de información desde los resultados hasta los métodos. Adaptarse a las necesidades de networking, inteligencia y personalización es la nueva tendencia en el desarrollo de la tecnología de recuperación de información. Puntos calientes en la tecnología de recuperación de información ◆ Recuperación inteligente o recuperación de conocimientos La tecnología tradicional de recuperación de texto completo se basa en la concordancia de palabras clave, lo que a menudo resulta en búsquedas incompletas, búsquedas inexactas y baja calidad de recuperación. Especialmente en la era de la información de Internet, se utiliza la concordancia de palabras clave. Es difícil satisfacer los requisitos de búsqueda de las personas. La recuperación inteligente utiliza diccionarios de segmentación de palabras, diccionarios de sinónimos y diccionarios homófonos para mejorar los resultados de la recuperación. Por ejemplo, si un usuario consulta "computadora", también puede recuperar más información relacionada con "computadora", lo que también puede ayudar en las consultas. nivel o nivel conceptual, a través de diccionarios de temas, diccionarios superiores e inferiores y diccionarios hermanos relacionados forman un sistema de conocimiento o red de conceptos, brindando a los usuarios consejos de conocimiento inteligentes y, en última instancia, ayudando a los usuarios a obtener los mejores resultados de recuperación. consulte el alcance a "microcomputadora" y "servidor" o expanda la consulta a "tecnología de la información" o consulte categorías relacionadas como "tecnología electrónica", "software" y "aplicaciones informáticas". Además, la recuperación inteligente también incluye información ambigua y procesamiento de recuperación. Por ejemplo, ¿"Apple" se refiere a una marca de fruta o de computadora? La distinción entre "chino" y "República Popular China" se determinará a través de la base de datos de descripción de conocimiento ambiguo. e índice de texto completo, análisis de contexto de recuperación del usuario y comentarios de relevancia del usuario y otras tecnologías se combinan para brindar información de manera eficiente y precisa sobre la información que los usuarios más necesitan. ◆La minería de conocimientos actualmente se refiere principalmente al desarrollo de tecnología de minería de textos, cuyo objetivo es ayudar a las personas a descubrir, organizar, representar información, extraer conocimientos y satisfacer las necesidades de alto nivel de recuperación de información.

La minería de conocimientos incluye resumen, clasificación (agrupación) y recuperación de similitudes. El resumen automático es el uso de computadoras para extraer automáticamente resúmenes de documentos originales. En la recuperación de información, el resumen automático ayuda a los usuarios a evaluar rápidamente la relevancia de los resultados de la recuperación. En los servicios de información, el resumen automático ayuda a distribuir contenido en diversas formas, como en PDA, teléfonos móviles, etc. La tecnología de recuperación de similitudes busca documentos similares o relacionados en función de las características del contenido del documento. Es la base para lograr comentarios personalizados de los usuarios y también se puede utilizar para análisis de deduplicación. La clasificación automática puede basarse en estadísticas o reglas, y el aprendizaje automático se puede utilizar para formar un árbol de clasificación predefinido, y luego los documentos se pueden clasificar según sus características de contenido, se pueden agrupar y fusionar automáticamente según la relevancia del documento; contenido. La clasificación automática (agrupación) es muy útil en la organización y navegación de la información. ◆ Recuperación integrada de información heterogénea y recuperación holográfica Con la tendencia de que la recuperación de información se distribuya y se conecte en red, los requisitos de apertura e integración de los sistemas de recuperación de información son cada vez mayores. Necesitan poder recuperar e integrar información de diferentes fuentes y estructuras. Esta es la base para el desarrollo de tecnología de recuperación de información heterogénea que incluye soporte para el procesamiento y recuperación de varios archivos formateados, como TEXTO, HTML, XML, RTF, MSOffice, PDF, PS2/PS, MARC, ISO2709, etc.; la recuperación de información multilingüe; soporte al procesamiento unificado de datos estructurados, datos semiestructurados y datos no estructurados; integración perfecta con la recuperación de bases de datos relacionales y la integración de otras interfaces de recuperación abiertas, etc. El concepto de la llamada "recuperación holográfica" es apoyar la recuperación en todos los formatos y métodos desde la práctica actual, se ha desarrollado hasta el nivel de recuperación integrada de información heterogénea entre personas y computadoras basada en la comprensión del lenguaje natural y la recuperación de información multimedia. aún no se han logrado mayores avances en la integración. Además, desde la perspectiva de la práctica de la ingeniería, el uso integral de caché multinivel, agrupación distribuida y tecnología de equilibrio de carga de memoria y almacenamiento externo también son aspectos importantes del desarrollo de la tecnología de recuperación de información. Con la popularización de Internet y el desarrollo del comercio electrónico, la cantidad de información que las empresas y los individuos pueden obtener y necesitan procesar se ha disparado, y la mayor parte son datos no estructurados y semiestructurados. La importancia de la gestión de contenidos se ha vuelto cada vez más destacada, y la recuperación de información, como tecnología de soporte central de la gestión de contenidos, también se aplicará a diversos campos con el desarrollo y la popularización de la gestión de contenidos, convirtiéndose en un socio cercano en el trabajo y la vida diaria de las personas. La recuperación de información se originó a partir del trabajo de consulta de referencias e indexación de resúmenes de la biblioteca. Comenzó a desarrollarse en la segunda mitad del siglo XIX. En la década de 1940, la indexación y la recuperación se habían convertido en herramientas y servicios para usuarios independientes para las bibliotecas. Con la llegada de la primera computadora electrónica del mundo en 1946, la tecnología informática ingresó gradualmente al campo de la recuperación de información y se integró estrechamente con la teoría de la recuperación de información; se desarrollaron y comercializaron con éxito sistemas de recuperación de información por lotes fuera de línea y sistemas de recuperación de información en línea en tiempo real. Desde la década de 1960 hasta la década de 1980, impulsada por la tecnología de procesamiento de información, tecnología de comunicación, tecnología informática y de bases de datos, la recuperación de información se desarrolló rápidamente en diversos campos como la educación, el ejército y los negocios, y fue ampliamente utilizada. El sistema internacional de recuperación de información en línea Dialog es un representante del campo de recuperación de información durante este período y sigue siendo uno de los sistemas más famosos del mundo. Flujo de trabajo de los motores de búsqueda Internet es un tesoro y los motores de búsqueda son la clave para desbloquearlo. Sin embargo, la gran mayoría de los usuarios de Internet carecen de conocimientos y habilidades de uso relevantes de los motores de búsqueda. Una encuesta extranjera mostró que alrededor del 71% de las personas estaban decepcionadas en diversos grados con los resultados de la búsqueda. Como segundo servicio más grande de Internet, esta situación debería cambiar. El rápido desarrollo de Internet ha provocado un crecimiento explosivo de la información en línea. Actualmente hay más de 2 mil millones de páginas web en el mundo, y cada día se agregan 7,3 millones de páginas web nuevas. Encontrar información en un océano de información tan vasto es tan difícil como "encontrar una aguja en un pajar". Los motores de búsqueda son la tecnología que surgió para solucionar este problema del "Trek". El trabajo de un motor de búsqueda incluye los siguientes tres procesos: 1. Descubrir y recopilar información de páginas web en Internet; 2. Extraer y organizar la información para establecer una base de datos de índice; 3. Luego, el buscador busca en la base de datos de índice según la consulta; palabras clave ingresadas por el usuario. Consulte rápidamente los documentos, evalúe la relevancia de los documentos y las consultas, ordene los resultados que se generarán y devuelva los resultados de la consulta al usuario. Descubrir y recopilar información de páginas web requiere un programa "web spider" de alto rendimiento (Spider) para buscar automáticamente información en Internet. La forma en que funciona una araña web típica es mirar una página y encontrar información relevante, luego comienza desde todos los enlaces de la página y continúa buscando información relevante, y así sucesivamente hasta que se agota.

Las arañas web deben ser rápidas y completas. Para navegar rápidamente por todo Internet, las arañas web suelen utilizar tecnología preventiva de subprocesos múltiples para recopilar información en Internet. Mediante el uso de subprocesos múltiples preventivos, puede indexar una página web basándose en un enlace URL, iniciar un nuevo hilo para seguir cada nuevo enlace URL e indexar un nuevo punto de partida de URL. Por supuesto, los hilos abiertos en el servidor no pueden expandirse indefinidamente. Es necesario encontrar un equilibrio entre el funcionamiento normal del servidor y la rápida recopilación de páginas web. Cada empresa de tecnología de motores de búsqueda puede tener algoritmos diferentes, pero el propósito es navegar rápidamente por las páginas web y cooperar con el proceso posterior. En la actualidad, las empresas nacionales de tecnología de motores de búsqueda, como Baidu Web Spider, utilizan un algoritmo de programación personalizable y altamente escalable para permitir al buscador recopilar la máxima cantidad de información de Internet en muy poco tiempo y guardar la información obtenida en Guárdela para indexarla. y recuperación del usuario. El establecimiento de una base de datos de índice está relacionado con si los usuarios pueden encontrar la información más precisa y extensa lo más rápido posible. Al mismo tiempo, el establecimiento de una base de datos de índice también debe ser rápido y la información de la página web capturada por las arañas web. indexados muy rápidamente para garantizar la actualidad de la información. Se utiliza un método basado en el análisis de contenido web y el análisis de hipervínculos para evaluar la relevancia de las páginas web, que pueden clasificar objetivamente las páginas web, garantizando así que los resultados de la búsqueda sean consistentes en la mayor medida con la cadena de consulta del usuario. En el proceso de indexación de datos de sitios web, el motor de búsqueda Sina establece una base de datos de índice basada en la aparición de palabras clave en diferentes posiciones, como títulos de sitios web, descripciones de sitios web, URL de sitios web, etc. o el nivel de calidad del sitio web, garantizando así que la búsqueda Los resultados son consistentes con la consulta del usuario. Las cadenas son consistentes. Este artículo proviene del blog de CSDN. Indique la fuente al reimprimir: 4579795.aspx

.