Algoritmo de recuperación de texto completo, ¿alguien puede darme algunos consejos? No lo entiendo. .
La recuperación de texto completo significa que el programa de indexación escanea cada palabra de un artículo, establece un índice correspondiente y registra la posición y frecuencia de la palabra. Cuando lo consulta un motor de búsqueda, el programa de recuperación busca en el índice de registros y se los devuelve al usuario. La recuperación de texto completo se divide en indexación de texto completo basada en palabras e indexación de texto completo basada en palabras. La indexación de texto completo basada en palabras indexará y registrará cada palabra de su contenido. Este método tiene una alta tasa de recuperación pero una baja tasa de precisión, especialmente para los chinos. A veces, una búsqueda de Mark arrojará resultados para Marx. La indexación de texto completo basada en palabras registra una palabra como una unidad y puede manejar sinónimos. Los motores de búsqueda tienen su propio léxico. Cuando los usuarios realizan búsquedas, el motor de búsqueda extraerá palabras clave del vocabulario como elementos de índice, lo que puede mejorar en gran medida la precisión de la recuperación.
Tecnología de segmentación de palabras chinas
Todo el mundo siempre ha estado familiarizado con Baidu, que tiene su propia tecnología de segmentación de palabras chinas. Los métodos más utilizados incluyen el método de coincidencia máxima directa, el método de coincidencia máxima inversa, el método de coincidencia óptima, el método del sistema experto, etc. La coincidencia directa máxima es la solución de segmentación de palabras más utilizada. Al establecer un diccionario, se realiza la coincidencia directa máxima y se utiliza un algoritmo mecánico para segmentar palabras chinas. Para dar un ejemplo simple, si busca "¿Dónde está la Universidad de Pekín?", muchos de los resultados devueltos son páginas web que contienen las palabras Universidad de Pekín, Universidad de Pekín, etc. El motor de búsqueda solo utiliza la coincidencia máxima positiva para juzgar y utiliza Universidad de Pekín como palabra para indexar registros y devolverlos. Por supuesto, la concordancia máxima positiva también tiene imperfecciones. Por ejemplo, si una palabra es demasiado larga, los motores de búsqueda a veces no pueden segmentarla con precisión, o las palabras relacionadas no pueden segmentarla con precisión. Por ejemplo, "tiempo de componente de combinación" volverá a tiempo de combinación, tiempo de componente y tiempo de molécula. A veces la palabra clave que queremos es "molécula".
En muchos casos, Baidu dividirá las palabras según el peso de su propio vocabulario. El cálculo del peso se basa en todos los aspectos de la vida y es relativamente complicado. Lo que tienen que hacer los motores de búsqueda es devolver los resultados que los usuarios más desean. A veces, los webmasters tienen que considerar cuestiones desde la perspectiva del usuario al crear un sitio web. De hecho, esto también es desde la perspectiva de los motores de búsqueda. No importa a la hora de determinar las palabras clave objetivo o las palabras clave de cola larga, puede elegir de acuerdo con los principios de segmentación de palabras chinas, que pueden minimizar la inutilidad.
El principio de segmentación de palabras cambia y se actualiza constantemente. Debemos seguir aprendiendo. Sólo dominando la esencia podremos captarla.