"Una lectura obligada para comenzar a recuperar información" # 10 Comentarios relacionados con consultas (concisos)
La idea principal de la retroalimentación relevante es optimizar la consulta a través de la interacción del usuario durante el proceso de recuperación de información, mejorando así el efecto de recuperación final. Nuestro propósito es implementar un buen mecanismo de retroalimentación.
Para que la retroalimentación realmente evolucione la consulta en una "mejor" dirección, es necesario definir un indicador para evaluar la consulta. Normalmente lo evaluamos en el modelo de espacio vectorial porque expresa mejor la similitud.
Supongamos que queremos encontrar un vector de consulta óptimo que tenga la mayor similitud con documentos relevantes y la menor similitud con documentos irrelevantes. Si se refiere al conjunto de documentos relevante y al conjunto de documentos irrelevante, esperamos encontrar el mejor, que debe cumplir con los siguientes requisitos:
La función devuelve la variable que maximiza la similitud. Se determina la similitud. por el ángulo coseno y el cálculo del vector unitario normalizado. Además, ordenamos:
Si está maximizado, debe ser paralelo a los vectores unitarios y, por lo que tiene la mejor consulta:
Es decir, el vector de consulta óptimo es igual a La diferencia entre el vector centroide del documento relevante y el vector centroide del documento irrelevante es equivalente a estar más cerca del documento relevante y más lejos del documento irrelevante.
Sin embargo, incluso con el método de representación de consulta óptimo anterior, no se puede encontrar directamente, porque el propósito original de la recuperación es encontrar documentos relevantes, y todos los documentos relevantes se desconocen de antemano.
Rocchio sugirió que en un escenario de recuperación real, podemos utilizar algunos documentos relevantes y documentos irrelevantes que han sido recuperados para modificar gradualmente el vector de consulta original:
La nueva consulta modificada Inicio cerrar a los vectores centroides de documentos relevantes mientras se aleja de los vectores centroides de documentos irrelevantes, más cerca de la consulta óptima. A través de la iteración continua, se puede observar que el efecto de la consulta ha mejorado significativamente.
En términos generales, los comentarios se pueden dividir en los dos tipos siguientes:
En comentarios realmente relevantes, los usuarios a menudo no están dispuestos a proporcionar información de comentarios (como marcar documentos relevantes o irrelevantes). por eso los motores de búsqueda recopilan comentarios indirectos de los usuarios.
Los datos del flujo de clics son la retroalimentación más utilizada en este campo y se pueden recopilar en grandes cantidades sin molestar al usuario (otra forma de complementar la información sobre el comportamiento del usuario es el seguimiento ocular).
En los mismos resultados de búsqueda, los resultados en los que el usuario hace clic para navegar se consideran relevantes o "preferidos por el usuario". Si un usuario lee el breve resumen de texto que se muestra debajo de cada motor de búsqueda, decide omitirlo y hace clic en el resultado debajo de él en la clasificación, se puede decir que el usuario prefiere relativamente el resultado en el que hizo clic.
En la retroalimentación relacionada con hipótesis, existen dos enfoques básicos:
La construcción de un tesauro es muy costosa y generalmente se considera que se obtiene analizando el contexto y la estructura de la frase. Si esta idea se aplica al análisis local, nace el método LCA: un método que se centra en filtrar $terms que son más relevantes para la consulta de los resultados de retroalimentación, y luego usa estos $terms para expandir la recuperación de consultas.
Los pasos generales son los siguientes:
La información de retroalimentación relevante, incluida la relevancia e importancia mencionadas en el artículo anterior, es en realidad solo la punta del iceberg de muchos factores en RI. De hecho, puede haber varios o docenas de factores que en última instancia se ponderan para formar una función indicadora unificada.
La entrada de esta función de índice es el conjunto de datos (incluidos la consulta y el conjunto de documentos) y la salida es la lista de clasificación finalmente recuperada. ¿Cómo construir una función tan compleja?
Para los constructores, la idea inicial de las personas suele ser adaptarse a todos
En el pasado, debido a la falta de conjuntos de entrenamiento, especialmente conjuntos de datos obtenidos en el mundo real (en lugar de artículos académicos ), El aprendizaje automático rara vez se utiliza en sistemas de IR porque es difícil recopilar las necesidades reales de recuperación del usuario y comentarios relevantes sobre los documentos devueltos.
Además, en el pasado, los sistemas de recuperación de información solían utilizar solo algunas características, como la frecuencia de las palabras, la frecuencia de los documentos invertidos, la posición donde aparece $TERM, etc.
Varias características aportan comodidad a los constructores. Con el desarrollo de las redes y la mejora de la potencia informática, las personas comenzaron a prestar atención a una gran cantidad de funciones en los conjuntos de datos y trataron de utilizarlas mediante el aprendizaje automático.
Defina la función de pérdida, donde la "clasificación estándar" se obtiene en función de los comentarios de los usuarios y la "clasificación simulada" se calcula ajustando la función de clasificación F. Necesitamos encontrar una F para minimizar la pérdida. - Estos son los objetivos del aprendizaje automático.
A continuación se muestra un ejemplo para ilustrar la aplicación del aprendizaje automático en la recuperación de información. Considere el impacto que tienen los $terms que aparecen en una consulta en el título o cuerpo del documento en el orden de los resultados devueltos.
Para hacer esto, necesitamos calificar cuatro casos en $term:
La función de suma es una función booleana (0/1) sobre si $term existe en la posición correspondiente en el documento, por lo que los resultados de la puntuación son solo 0, g, 1-g y 1. Sólo preguntamos por el peso en g.
En la consulta j, definimos la siguiente función de pérdida para el documento I en los resultados de la recuperación:
Aquí, la función R se define simplemente según si son relevantes o no. Función booleana (0/1) y use el error al cuadrado para que el resultado sea más continuo.
En el conjunto de entrenamiento, marcamos los valores de la suma y la función r de todos los resultados (ocho casos) y contamos sus tiempos respectivamente. Por ejemplo, la suma de los errores al cuadrado de un ejemplo representativo relevante y un ejemplo representativo no correlacionado es:
Del mismo modo, también calculamos y sumamos los otros tres grupos, que se pueden simplificar:
Para obtener el valor mínimo de esta función solo es necesario encontrar el punto cero de la derivada sobre g. Si se consideran más variables, se necesitan derivadas parciales y luego se utilizan métodos de análisis numérico como el método constante de Lagrang.